Сравнение двух файлов linux. Сравнение текстовых файлов в linux. Опции команды diff

В операционной системе Linux есть несколько программных решений для сравнения внутреннего содержимого двух файлов различными методами. Безусловно, такая функция будет безумно полезна веб-разработчику для сравнения двух текстовых файлов. К примеру, есть 2 файла стилей css, которые Вам нужно быстро сравнить чтобы найти в них отличия. Или посмотреть, что нового в обновленном PHP скрипте.

Наглядный пример из жизни:

Итак, в моём случае мне нужно сравнить 2 файла bootstrap.css . Летом сего года я что-то исправил в стилях файла bootstrap.css (чего делать нельзя было, т.к. для кастомных правок стилей нужно использовать отдельный style.css). Из-за этой мелочи мне проблематично обновиться с версии 3.3.2 до bootstrap 3.3.5, т.к. в более новой версии свой обнолённый CSS файл, при замене которого все мои правки пропадут и "слетит" часть дизайна веб-сайта. Учитывая, что в файле стилей bootstrap более 6000 строчек кода абсолютно невозможно самостоятельно просмотреть изменения.

Сравниваем файлы с утилитой diff в linux:

Чтобы сравнить файлы `bootstrap.css" и `bootstrap-original.css" (для наглядности переименовал оригинальный файл, дописав к нему приставочку -original), введите в терминале: $ diff bootstrap.css bootstrap-original.css В консоли мы получили стандартный отчет о различиях в этих файлах. Если нужно автоматически сохранить отчет в отдельный файл на диске - направляем вывод результатов diff в файл $ diff bootstrap.css bootstrap-original.css > сss-modifications.diff Теперь весь отчет о различиях файлов сохранится в этот же папке под именем "сss-modifications.diff ". Однако, такой вывод не слишком наглядно показывает где и что было добавлено или убрано мною. Чтобы яснее увидеть чем отличаются два файла, можно использовать sdiff ; Отличие этого пакета в том, что он не генерирует отчёт о различиях. Расположив оба файла в две колонки, он сразу же показывает отличия в обоих файлах. `|" помечает строки, которые различаются между собой `" подсвечивает строки, которые встречаются только во втором файле.

Синтаксис команды аналогичен синтаксису diff:

$ sdiff bootstrap.css bootstrap-original.css Выводим в консоль различия, а командой: $ sdiff bootstrap.css bootstrap-original.css > сss-modifications.diff Записываем весь отчёт в отдельном файле. Я бы еще посоветовал дописать аргумент -t, для более читабельного формата diff отчёта (достигается путем выравнивания расстояний между таблицами пробелами). В противном случае в gedit стандартный отчет откроется отлично, а в Sublime он "расплывётся": $ sdiff bootstrap.css bootstrap-original.css > сss-modifications.diff -t P.S. на этом возможности сравнения файлов в Linux не заканчиваются и можно сравнить даже 3 файла одновременно. Для этого используйте команду Для одновременного сравнения трех файлов используйте diff3. $ diff3 bootstrap.css bootstrap-original.css bootstrap-3.css > new.diff

Иногда возникает необходимость сравнить несколько файлов между собой. Это может понадобиться при анализе разницы между несколькими версиями конфигурационного файла или просто для сравнения различных файлов. В Linux для этого есть несколько утилит, как для работы через терминал, так и в графическом интерфейсе.

В этой статье мы рассмотрим как выполняется сравнение файлов Linux. Разберем самые полезные способы, как для терминала, так и в графическом режиме. Сначала рассмотрим как выполнять сравнение файла linux с помощью утилиты diff.

Утилита diff linux - это программа, которая работает в консольном режиме. Ее синтаксис очень прост. Вызовите утилиту, передайте нужные файлы, а также задайте опции, если это необходимо:

$ diff опции файл1 файл2

Можно передать больше двух файлов, если это нужно. Перед тем как перейти к примерам, давайте рассмотрим опции утилиты:

-q - выводить только отличия файлов;
-s - выводить только совпадающие части;
-с - выводить нужное количество строк после совпадений;
-u - выводить только нужное количество строк после отличий;
-y - выводить в две колонки;
-e - вывод в формате ed скрипта;
-n - вывод в формате RCS;
-a - сравнивать файлы как текстовые, даже если они не текстовые;
-t - заменить табуляции на пробелы в выводе;
-l - разделить на страницы и добавить поддержку листания;
-r - рекурсивное сравнение папок;
-i - игнорировать регистр;
-E - игнорировать изменения в табуляциях;
-Z - не учитывать пробелы в конце строки;
-b - не учитывать пробелы;
-B - не учитывать пустые строки.

Это были основные опции утилиты, теперь давайте рассмотрим как сравнить файлы Linux. В выводе утилиты кроме, непосредственно, отображения изменений, выводит строку в которой указывается в какой строчке и что было сделано. Для этого используются такие символы:

a - добавлена;
d - удалена;
c - изменена.

К тому же, линии, которые отличаются, будут обозначаться символом <, а те, которые совпадают - символом >.

Вот содержимое наших тестовых файлов:

Теперь давайте выполним сравнение файлов diff:

diff file1 file2

В результате мы получим строчку: 2,3c2,4. Она означает, что строки 2 и 3 были изменены. Вы можете использовать опции для игнорирования регистра:

diff -i file1 file2

Можно сделать вывод в две колонки:

diff -y file1 file2

А с помощью опции -u вы можете создать патч, который потом может быть наложен на такой же файл другим пользователем:

diff -u file1 file2

Чтобы обработать несколько файлов в папке удобно использовать опцию -r:

diff -r ~/tmp1 ~/tmp2

Для удобства, вы можете перенаправить вывод утилиты сразу в файл:

diff -u file1 file2 > file.patch

Как видите, все очень просто. Но не очень удобно. Более приятно использовать графические инструменты.

Сравнение файлов Linux с помощью GUI

Существует несколько отличных инструментов для сравнения файлов в linux в графическом интерфейсе. Вы без труда разберетесь как их использовать. Давайте рассмотрим несколько из них:

1. Kompare

Kompare - это графическая утилита для работы с diff, которая позволяет находить отличия в файлах, а также объединять их. Написана на Qt и рассчитана в первую очередь на KDE. Вот ее основные особенности:

Поддержка нескольких форматов diff;
Поддержка сравнение файла linux и каталогов;
Поддержка просмотра файлов diff;
Настраиваемый интерфейс;
Создание и применение патчей к файлам.

2. DiffMerge

DiffMerge - это кроссплатформенная программ для сравнения и объединения файлов. Позволяет сравнивать два или три файла. Поддерживается редактирование строк на лету.

Особенности:

Поддержка сравнения каталогов;
Интеграция с просмотрщиком файлов;
Настраиваемая.

3. Meld

Это легкий инструмент для сравнения и объединения файлов. Он позволяет сравнивать файлы, каталоги, а также выполнять функции системы контроля версий. Программа создана для разработчиков и имеет такие особенности:

Сравнение двух и трех файлов;
Использование пользовательских типов и слов;
Режим автоматического слияния и действия с боками текста;
Поддержка Git, Mercurial, Subversion, Bazar и многое другое.

4. Diffuse

Diffuse - еще один популярный и достаточно простой инструмент для сравнения и слияния файлов. Он написан на Python. Поддерживается две основные возможности - сравнение файлов и управление версиями. Вы можете редактировать файлы прямо во время просмотра. Основные функции:

Подсветка синтаксиса;
Сочетания клавиш для удобной навигации;
Поддержка неограниченного числа отмен;
Поддержка Unicode;
Поддержка Git, CVS, Darcs, Mercurial, RCS, Subversion, SVK и Monotone.

5. XXdiff

XXdiff - это свободный и очень мощный инструмент для сравнения и слияния файлов. Но у программы есть несколько минусов. Это отсутствие поддержки Unicode и редактирования файлов.

Особенности:

Поверхностное или рекурсивное сравнение одного или двух файлов и каталогов;
Подсветка отличий;
Интерактивное объединение;
Поддержка внешних инструментов сравнения, такие как GNU Diff, SIG Diff, Cleareddiff и многое другое;
Расширяемость с помощью сценариев;
Настраиваемость.

6. KDiff3

KDiff3 - еще один отличный, свободный инструмент для сравнения файлов в окружении рабочего стола KDE. Он входит в набор программ KDevelop и работает на всех платформах, включая Windows и MacOS. Можно выполнить сравнение двух файлов linux для двух или трех, или даже сравнить каталоги. Вот основные особенности:

Отображение различий построчно и посимвольно;
Поддержка автослияния;
Обработка конфликтов при слиянии;
Поддержка Unicode;
Отображение отличий;
Поддержка ручного выравнивания.

Выводы

В этой статье мы рассмотрели как выполняется сравнение файлов linux с помощью терминала, как создавать патчи, а также сделали небольшой обзор лучших графических утилит для сравнения файлов. А какие инструменты для сравнения используете вы? Напишите в комментариях!

), их сравнений, а также сравнений GUI-клиентов для них. Также были обсуждения плагинов к IDE для работы с git и mercurial. Но практически не было информации об инструментах визуального сравнения и разрешения конфликтов слияния.

Недавно я «перескочил» с mercurial (который до сих пор считаю более удобным и логичным) на git, потому что, подавляющее большинство проектов, которые мне интересны, используют git и хостятся на github. В связи с этим, встал вопрос о пересмотре арсенала инструментов, в частности вопрос выбора инструмента визуального сравнения и слияния (diff and merge). Дабы восполнить недостаток информации на хабре, я решил написать этот мини-обзор. Как говориться - по горячим следам.

Под катом Вы также найдете примеры настроек Git для использования с DiffMerge и WinMerge под Windows. Думаю многим сэкономит время.

Название

Особенности

Платформа

KDiff3

Git и WinMerge

1) Добавим в директорию c:/Git/libexec/git-core/mergetools/
файл winmerge следующего содержания:

Diff_cmd () { "c:/Program Files (x86)/WinMerge/WinMergeU.exe" \ "$LOCAL" "$REMOTE" >/dev/null 2>&1 } merge_cmd () { "c:/Program Files (x86)/WinMerge/WinMergeU.exe" \ "$PWD/$LOCAL" "$PWD/$REMOTE" "$PWD/$MERGED" >/dev/null 2>&1 status=$? }
Когда Git не может автоматически объединить изменения, происходит конфликт слияния и в конфликтующий файл добавляются маркеры слияния (<<<<<<<, =======, и >>>>>>>). Они необходимы для разрешения конфликта с помощью сторонних инструментов.
Рассмотрим файл readme.txt который образуется в результате выполнения слияния веток master и new в приведенном выше примере:

<<<<<<< HEAD master str ======= new str >>>>>>> new
Мы можем открыть файл конфликтов с помощью программы WinMerge для разрешения конфликта.

После этого откроется средство двухстороннего слияния:

Исходя из описанной логики перепишем команду слияния merge_cmd следующим образом:
merge_cmd () { "c:/Program Files (x86)/WinMerge/WinMergeU.exe" \ "$MERGED" >/dev/null 2>&1 status=$? }
По сути, оба приведенных варианта эквивалентны.

2) Отредактируем .gitconfig
tool = winmerge cmd = "winmerge" tool = winmerge cmd = "winmerge" trustExitCode = false keepBackup = false
последняя строчка отменяет сохранение backup-файлов в директории репозитория.

3) Создадим конфликт при слиянии двух веток (см. пример с использованием DiffMerge).
git difftool master new // сравним две ветви

Для разрешения конфликта при слиянии веток, воспользуемся командой
git mergetool

Сегодня меня попросили сравнить заголовки небольших абзацев в двух больших текстовых файлах. Все заголовки начинались со звёздочки, поэтому проблем не возникло. Но совсем без проблем не интересно и больше от скуки, чем для реального пользования, захотелось найти способ для вытаскивания заголовков из любого текста. К сожалению 100% рабочий способ не был найден, однако в конце статьи будет интересное решение по превращению двойных и более пустых строк в одну пустую строку.

Для начала простейший вариант, когда надо просто сравнить 2 текстовых файла.
Для этого есть команда diff. Синтаксис следующий:

diff первый_файл второй_файл

Гораздо удобнее перенаправить вывод в файл с расширением diff

diff первый_файл второй_файл > profit.diff

Если такой файл открыть в текстовом редакторе, то будет подсвечен синтаксис и процесс анализа облегчится.

Программа сравнивает строки и если в одном из файлов присутствует строка, которой нет в другом, то ставится знак «>» или «

Чтобы получить вывод строк, которые начинаются с одного символа (в данном случае это *), то лучше всего воспользоваться командой grep. Например, если нужно отправить в файл 1.txt все строки, которые начинаются с «*» в файле file.txt, то для этого следует выполнить

grep "^*" "file.txt" > 1.txt

Что касается вытаскивания заголовков из текста любого формата, то тут ничего толкового не получилось.
Но не пропадать же коду, пусть лежит тут:

#!/bin/bash
n=$1
st=`sed -n ‘/^$/p’ $n| wc -l | awk ‘{print$1}’` #считаем кол-во пустых строк
sed -nr ‘/^.{100}/!p’ $n > /tmp/copy2$n #интересуют только строки с менее чем 100 символами (вряд ли заголовки будут длиннее)
sed -n «1p» /tmp/copy2$n > ‘Заголовки ‘$n # Выносим первую строку (уж она то будет заголовком)
#
tr ‘n’ ‘^’ /tmp/copy$n # Меняем все переносы на символ ^
#
#Меняем последовательность из ^^^(и т.д.) на двойные переносы (получается пустая строка)
#А одинарный ^ меняем на одинарный перенос (без пустой строки).
sed -i ‘s/^^^^^^^^^^^^^^^^^^/nn/g’ /tmp/copy$n
sed -i ‘s/^^^^^^^^^^^^^^^^^/nn/g’ /tmp/copy$n
sed -i ‘s/^^^^^^^^^^^^^^^^/nn/g’ /tmp/copy$n
sed -i ‘s/^^^^^^^^^^^^^^^/nn/g’ /tmp/copy$n
sed -i ‘s/^^^^^^^^^^^^^^/nn/g’ /tmp/copy$n
sed -i ‘s/^^^^^^^^^^^^^/nn/g’ /tmp/copy$n
sed -i ‘s/^^^^^^^^^^^^/nn/g’ /tmp/copy$n
sed -i ‘s/^^^^^^^^^^^/nn/g’ /tmp/copy$n
sed -i ‘s/^^^^^^^^^^/nn/g’ /tmp/copy$n
sed -i ‘s/^^^^^^^^^/nn/g’ /tmp/copy$n
sed -i ‘s/^^^^^^^^/nn/g’ /tmp/copy$n
sed -i ‘s/^^^^^^^/nn/g’ /tmp/copy$n
sed -i ‘s/^^^^^^/nn/g’ /tmp/copy$n
sed -i ‘s/^^^^^/nn/g’ /tmp/copy$n
sed -i ‘s/^^^^/nn/g’ /tmp/copy$n
sed -i ‘s/^^^/nn/g’ /tmp/copy$n
sed -i ‘s/^^/nn/g’ /tmp/copy$n
sed -i ‘s/^/n/g’ /tmp/copy$n
#
while [ $st -gt 0 ] #цикл на такое же кол-во раз, сколько и пустых срок.
do
st=$[$st-1]
sed -i ‘1,/^$/ d’ /tmp/copy$n #удаление всех строк до первой пустой (включая её саму)
sed -n «1p» /tmp/copy$n >> ‘Заголовки ‘$n #оставшуюся строку добавляем в файл
done

Кстати, этот код вполне справился со сравнением тех файлов, которые были мне присланы, однако с реальными книгами были проблемы.

Сравнение двух файлов в терминале linux (6)

Вот мое решение для этого:

Mkdir temp mkdir results cp /usr/share/dict/american-english ~/temp/american-english-dictionary cp /usr/share/dict/british-english ~/temp/british-english-dictionary cat ~/temp/american-english-dictionary | wc -l > ~/results/count-american-english-dictionary cat ~/temp/british-english-dictionary | wc -l > ~/results/count-british-english-dictionary grep -Fxf ~/temp/american-english-dictionary ~/temp/british-english-dictionary > ~/results/common-english grep -Fxvf ~/results/common-english ~/temp/american-english-dictionary > ~/results/unique-american-english grep -Fxvf ~/results/common-english ~/temp/british-english-dictionary > ~/results/unique-british-english

Есть два файла с именем «a.txt» и «b.txt», у которых есть список слов. Теперь я хочу проверить, какие слова добавлены в «a.txt» и не находятся в «b.txt» .

Мне нужен эффективный алгоритм, так как мне нужно сравнить два словаря.

Вы можете использовать инструмент diff в linux для сравнения двух файлов. Для фильтрации требуемых данных вы можете использовать опции --changed-group-format и --unchanged-group-format .

Следующие три варианта могут использовать для выбора соответствующей группы для каждой опции:

"% <" получить строки из FILE1

"%>" получает строки из FILE2

"" (пустая строка) для удаления строк из обоих файлов.

Например: diff --changed-group-format = "% <" --unchanged-group-format = "" file1.txt file2.txt

[ tmp]# cat file1.txt test one test two test three test four test eight [ tmp]# cat file2.txt test one test three test nine [ tmp]# diff --changed-group-format="%<" --unchanged-group-format="" file1.txt file2.txt test two test four test eight

Если вы предпочитаете стиль вывода diff из git diff , вы можете использовать его с флагом --no-index для сравнения файлов не в репозитории git:

Git diff --no-index a.txt b.txt

Используя пару файлов с строками имени файла размером 200 тыс. В каждом, я сравнивал (со встроенной командой time) этот подход и некоторые другие ответы здесь:

Git diff --no-index a.txt b.txt # ~1.2s comm -23 <(sort a.txt) <(sort b.txt) # ~0.2s diff a.txt b.txt # ~2.6s sdiff a.txt b.txt # ~2.7s vimdiff a.txt b.txt # ~3.2s

comm кажется, является самым быстрым на сегодняшний день, тогда как git diff --no-index представляется самым быстрым подходом для вывода в стиле diff.

Обновление 2018-03-25 Фактически вы можете опустить флаг --no-index если вы не находитесь в репозитории git и хотите сравнить невоспроизводимые файлы в этом репозитории. С man-страниц :

Эта форма предназначена для сравнения данных двух путей в файловой системе. Вы можете опустить параметр -no-index при запуске команды в рабочем дереве, контролируемом Git, и по крайней мере одну из точек пути за пределами рабочего дерева или при запуске команды за пределами рабочего дерева, управляемого Git.

Используйте comm -13 (требуется отсортированные файлы) :

$ cat file1 one two three $ cat file2 one two three four $ comm -13 <(sort file1) <(sort file2) four

Сортируйте их и используйте comm:

Comm -23 <(sort a.txt) <(sort b.txt)

comm сравнивает (сортирует) входные файлы и по умолчанию выводит три столбца: строки, которые уникальны для a, строки, которые являются уникальными для b, и строки, которые присутствуют в обоих. Указав -1 , -2 и / или -3 вы можете подавить соответствующий вывод. Поэтому comm -23 ab перечисляет только записи, которые являются уникальными для a. Я использую синтаксис <(...) для сортировки файлов на лету, если они уже отсортированы, вам это не нужно.

если у вас установлен vim, попробуйте следующее:

Vimdiff file1 file2

Vim -d file1 file2

вы найдете его фантастическим.