Различаются текстовые документы, но игнорируются различия в одном символе? Установить фильтр минимального расстояния редактирования?

У меня есть две версии большой книги в формате txt, и я хотел бы сравнить их, чтобы найти существенные изменения между версиями, игнорируя небольшие различия в одном символе.

Существует множество инструментов сравнения, которые могут игнорировать различия между пробелами, но я также хочу игнорировать мелкие опечатки и различия в одном или нескольких символах. Например, одна версия книги имеет многократное опечатка leige сотни раз, и это исправлено в следующей версии liege, Некоторые собственные имена также изменили свое написание. (Я мог бы сделать индивидуальные обходные пути для каждой ошибки, но хотел бы что-то более общего назначения)

Поскольку меня интересуют только более существенные различия в нескольких словах, я действительно хочу установить фильтр, который игнорирует изменения для строки, если расстояние редактирования Левенштейна не превышает некоторого порога.

Оглядываясь вокруг всех инструментов сравнения / сравнения, которые я обнаружил, кажется, имеешь в виду код, поэтому им не хватает какой-либо возможности игнорировать небольшие изменения текста. Библиотека diff_match_patch от Google отлично подходит для разметки открытого текста и игнорирования изменений пробелов ( демонстрация здесь), но, похоже, не имеет нестандартного способа игнорировать различия между символами и пробелами.

ТЛ; др; Существуют ли какие-либо инструменты сравнения, которые могут сравнивать текстовые документы, но отфильтровывать незначительные различия между символами и пробелами?

1 ответ

В Beyond Compare вы можете определить "замены".

Пример: различия отмечены красным:

Затем вы можете перейти к Session->Session Settings и установить замену:

Или даже проще: отметьте текст и определите замену немедленно:

Теперь разница не важна и помечена синим цветом:

Одним щелчком мыши вы можете игнорировать неважные различия (красная стрелка на скриншоте).

Техническое замечание: я использую BC4 с профессиональной версией.

Другие вопросы по тегам