Различаются текстовые документы, но игнорируются различия в одном символе? Установить фильтр минимального расстояния редактирования?
У меня есть две версии большой книги в формате txt, и я хотел бы сравнить их, чтобы найти существенные изменения между версиями, игнорируя небольшие различия в одном символе.
Существует множество инструментов сравнения, которые могут игнорировать различия между пробелами, но я также хочу игнорировать мелкие опечатки и различия в одном или нескольких символах. Например, одна версия книги имеет многократное опечатка leige
сотни раз, и это исправлено в следующей версии liege
, Некоторые собственные имена также изменили свое написание. (Я мог бы сделать индивидуальные обходные пути для каждой ошибки, но хотел бы что-то более общего назначения)
Поскольку меня интересуют только более существенные различия в нескольких словах, я действительно хочу установить фильтр, который игнорирует изменения для строки, если расстояние редактирования Левенштейна не превышает некоторого порога.
Оглядываясь вокруг всех инструментов сравнения / сравнения, которые я обнаружил, кажется, имеешь в виду код, поэтому им не хватает какой-либо возможности игнорировать небольшие изменения текста. Библиотека diff_match_patch от Google отлично подходит для разметки открытого текста и игнорирования изменений пробелов ( демонстрация здесь), но, похоже, не имеет нестандартного способа игнорировать различия между символами и пробелами.
ТЛ; др; Существуют ли какие-либо инструменты сравнения, которые могут сравнивать текстовые документы, но отфильтровывать незначительные различия между символами и пробелами?
1 ответ
В Beyond Compare вы можете определить "замены".
Пример: различия отмечены красным:
Затем вы можете перейти к Session->Session Settings и установить замену:
Или даже проще: отметьте текст и определите замену немедленно:
Теперь разница не важна и помечена синим цветом:
Одним щелчком мыши вы можете игнорировать неважные различия (красная стрелка на скриншоте).
Техническое замечание: я использую BC4 с профессиональной версией.