Как изменить файл аффикса Hunspell, чтобы разрешить числа в словах?
Программы OCR часто ошибочно распознают заглавную букву O как ноль или наоборот. Например, они могут распознать Over как 0ver или как we11.
Я пытался добавить
REP 0 O
REP 1 l
в файл аффикса, но это не сработало, потому что числа явно считаются границами слова.
(Я заглянул на справочную страницу hunspell, но не могу понять, какие из многочисленных настроек необходимо изменить, чтобы разрешить числа в словах.)
1 ответ
Из справочных страниц:
REP what замена В этой таблице указаны модификации, которые нужно попробовать в первую очередь. Первый REP - это заголовок этой таблицы, за ним следует одна или несколько строк данных REP. С помощью этой таблицы Hunspell может предложить правильные формы для типичных орфографических ошибок, когда неправильная форма отличается более чем на 1 букву от правильной формы. Строка поиска поддерживает граничные знаки регулярного выражения (^ и $). Например, возможное английское определение таблицы замены для обработки согласных с ошибками:
REP 5
REP f ph
REP ph f
REP tion$ shun
REP ^cooccurr co-occurr
REP ^alot$ a_lot
Вы добавили первую строку, REP + количество замен?