Нечеткое совпадение пользовательских правил или альтернативы

Question

Нечеткое совпадение пользовательских правил или альтернативы

Я работаю с довольно большим набором имен (как людей, так и мест), которые являются переводами со шрифта Деванагари на латинский алфавит. Переводы могут быть написаны разными способами, потому что один и тот же символ может быть переведен как "чу", "чху", "чу" или "чху" в зависимости от того, кто переводит или насколько они подробны.

В настоящее время я использую FuzzyWuzzy в своем проекте на основе Python, чтобы определить, совпадает ли имя с тем, которое уже есть в системе, но нечеткое сопоставление, очевидно, не позволяет понять сложности такого рода отклонений. Есть ли способ встроить пользовательские правила, которые могли бы учитывать такие альтернативные переводы? Есть ли альтернативные пакеты, которые делают это лучше?

0

python fuzzy-search fuzzywuzzy language-translation name-matching

Источник

user3754105 13 окт '17 в 10:48

0 ответов

Другие вопросы по тегам python fuzzy-search fuzzywuzzy language-translation name-matching