Примеры sed в Linux — синтаксис и регулярные выражения

Возможно, вы уже знаете некоторые команды терминала Linux, умеете работать с файлами, каталогами и осуществлять редактирование, например: cd, ls, pwd, cat. Но в данном обзоре всё изложено как можно конкретнее, чтобы предусмотреть распространённые вопросы.

Назначение операторов find и grep

Команда find в Linux является оператором командной строки для работы с файлами в обход существующей иерархии. Она позволяет производить поиск файлов с использованием множества фильтров, а также выполнять некие действия над файлами после их успешного поиска. Среди критериев поиска файлов – практически все доступные атрибуты, от даты создания до разрешения.

Назначение операторов find и grep

Команда grep в Linux также относится к поисковым, но внутри файлов. Буквальный перевод команды – «глобальная печать регулярных выражений», но под печатью здесь понимается вывод результатов работы на устройство по умолчанию, каковым обычно является монитор. Обладая огромным потенциалом, оператор используется достаточно часто и позволяет производить поиск внутри одного или нескольких файлов по заданным фрагментам (шаблонам). Поскольку терминология в Linuxе существенно отличается от таковой в среде Windows, очень многие пользователи испытывают значительные трудности с использованием этих команд. Постараемся устранить этот недостаток.

Java Regex Core Classes

Состоит из двух основных классов:

  • Шаблон ()
  • Соответствия ()

Класс Pattern используется для создания шаблонов. Шаблон — это предварительно скомпилированное регулярное выражение в форме объекта (как экземпляр шаблона), способное сопоставляться с текстом.

Класс Matcher используется для сопоставления заданного экземпляра Pattern с текстом несколько раз. Другими словами, искать несколько вхождений в тексте. Matcher скажет вам, где в тексте (индекс символа) он нашел вхождения. Вы можете получить экземпляр Matcher из экземпляра Pattern.

Вывод

В данной статье мы ознакомились со следующими командами:

  • head — просмотр первых n строк данных.
  • tail — просмотр последних n строк данных.
  • sort — организуйте данные в порядке.
  • nl — напечатайте номера строк перед данными.
  • wc — распечатать количество строк, слов и символов.
  • cut — разрезать данные на поля и отображать только указанные поля.
  • sed — сделайте поиск и замените данные.
  • uniq — удалить дубликаты строк.
  • tac — распечатайте данные в обратном порядке.
Читайте также:  Как установить и посмотреть переменные окружения Linux

Использование дополнительного буфера

Дополнительный буфер (hold buffer) увеличивает способность sed выполнять многострочное редактирование.

Дополнительный буфер представляет собой область временного хранения, которая может быть изменена путем определенных команд.

Наличие этого дополнительного буфера позволяет хранить строки во время работы над другими строками.

Команды для работы с буфером:

  • h: копирует текущий буфер обработки (последней совпавшей строки, с которой вы работаете) в дополнительный буфер.
  • H: Добавляет текущий буфер обработки в конец текущей дополнительной обработки, разделяя их символом \n.
  • g: Копирует текущий дополнительный буфер в текущий буфер обработки. Предыдущий буфер обработки будет утерян.
  • G: Добавляет текущий шаблон в текущий буфер обработки, разделяя их символом \n.
  • x: Подкачивает текущий шаблон и дополнительный буфер.

С контентом дополнительного буфера нельзя работать до тех пор, пока он не перемещён в буфер обработки.

Рассмотрим сложный пример.

Попробуйте соединить смежные строки при помощи следующей команды:

sed -n «1~2h;2~2{H;g;s/\n/ /;p}»

Примечание : На самом деле, для этого sed предлагает отдельную встроенную команду N; но для практики рассмотреть этот пример полезно.

Опция –n подавляет автоматический вывод.

1~2h – определение адреса, выполняющее последовательную замену каждой второй строки текста, начина с первой (то есть каждой нечётной строки). Команда h копирует совпавшие строки в дополнительный буфер.

Остальная часть команды взята в фигурные скобки. Это означает, что эта часть команды будут наследовать адрес, который был только что указан. Без этих скобок, наследовать адрес будет только команда H, а остальные команды будут выполняться для каждой строки.

Конечно, ранее упомянутая встроенная команда N значительно короче и проще, и возвращает такой же результат:

sed -n «N;s/\n/ /p» this is the song that never ends yes, it goes on and on, my friend some people started singing it not knowing what it was and they»ll continue singing it forever just because…

Читайте также:  Ubuntu 18.04 упрощает установку обновлений ядра без перезагрузки

Потоки ввода-вывода терминала и переадресация

В терминале Linux работа осуществляется через три потока ввода-вывода: вход (stdin), выход (stdout) и ошибка (stderr).

Данные потоки представлены файловыми дескрипторами. Их также принято считать идентификаторами: 0 для stdin, 1 для stdout, 2 для stderr.

Использование угловых скобок применяется для перенаправления (переадресации) команд и файлов в них и из них:

  • > для отправления в поток;
  • < для получения из потока;
  • >> для добавления в поток;
  • << для непосредственного присоединения потока (используется в «heredoc»);
  • <<< используется в «herestring» (на сегодняшний день не особо распространенная команда);
  • & используется для записи в поток, например &1 для записи в stdout.

Анатомия командной строки переадресации с использованием потоков

Дополнительные примеры переадресации приведены ниже:

  • чтобы отправить stdout и stderr в один и тот же файл (короткий вариант bash v4+) pip install rtv > 2>&1 ac -pd &> ;
  • чтобы пропустить и stdout, и stderr: wget _line_ &> /dev/null /dev/null — это «нулевой» файл для удаления потоков. А ещё это паблик со смешными мемами для ITшников (ВК и Телеграм);
  • чтение из stdin в качестве вывода команды: diff <(ls dirA) <(ls dirB);
  • добавить stdout в файл журнала sudo yum -y update >> yum_

Что такое регулярные выражения?

Говоря простым языком, регулярное выражение — это условное обозначение, символическая запись шаблона, который ищется в тексте. Регулярные выражения поддерживаются многими инструментами командной строки и большинством языков программирования и применяются для облегчения решения проблем с текстовыми манипуляциями. Однако (будто мало нам их сложности), не все регулярные выражения одинаковы. Они немного меняются от инструмента к инструменту и от языка программирования до языка. Для нашего обсуждения мы ограничимся регулярными выражениями, описанными в стандарте POSIX (который будет охватывать большинство инструментов командной строки), в отличие от многих языков программирования (в первую очередь Perl), которые используют несколько более крупные и более богатые наборы нотаций.

Введение

Добро пожаловать во вторую часть нашей серии, которая посвящена sed, версии GNU. Существует несколько версий sed, которые доступны на разных платформах, но мы сфокусируемся на GNU sed версии 4.x. Многие из вас слышали о sed, или уже использовали его, скорее всего в качестве инструмента замены. Но это только одно из предназначений sed, и мы постараемся показать вам все аспекты использования этой утилиты. Его название расшифровывается как «Stream EDitor» и слово «stream» (поток) в данном случае может означать файл, канал, или просто stdin. Мы надеемся, что у вас уже есть базовые знания о Linux, а если вы уже работали с регулярными выражениями, или по крайней мере знаете, что это такое, то все для вас будет намного проще. Объем статьи не позволяет включить в нее полное руководство по регулярным выражениям, вместо этого мы озвучим базовые концепции и дадим большое количество примеров использования sed.

Итоги

В этой серии материалов мы обычно показывали очень простые примеры bash-скриптов, которые состояли буквально из нескольких строк. В следующий раз рассмотрим кое-что более масштабное.

Уважаемые читатели! А вы пользуетесь регулярными выражениями при обработке текстов в сценариях командной строки?

grep расшифровывается как ‘global regular expression printer‘. grep отрезает нужные вам строки из текстовых файлов которые содержат указанный пользователем текст.

grep может быть использован двумя путями — сам по себе или в комбинации с потоками.

grep очень обширен в функциональности, за счет большого количества поддерживаемых им опций, таких как: поиск с использованием строкового шаблона или RegExp регулярных выражений шаблон или perl based регулярных выражений и т.д.

Из-за его различных функциональных возможностей инструмент grep имеет множество вариантов, включая egrep (Extended GREP) , fgrep (Fixed GREP) , pgrep (Process GREP) , rgrep (рекурсивный GREP) и т.д. Но эти варианты имеют незначительные отличия от оригинального grep.