Нечеткое совпадение пользовательских правил или альтернативы

Я работаю с довольно большим набором имен (как людей, так и мест), которые являются переводами со шрифта Деванагари на латинский алфавит. Переводы могут быть написаны разными способами, потому что один и тот же символ может быть переведен как "чу", "чху", "чу" или "чху" в зависимости от того, кто переводит или насколько они подробны.

В настоящее время я использую FuzzyWuzzy в своем проекте на основе Python, чтобы определить, совпадает ли имя с тем, которое уже есть в системе, но нечеткое сопоставление, очевидно, не позволяет понять сложности такого рода отклонений. Есть ли способ встроить пользовательские правила, которые могли бы учитывать такие альтернативные переводы? Есть ли альтернативные пакеты, которые делают это лучше?

0 ответов

Другие вопросы по тегам