Соответствие имени на основе глубокого обучения, чтобы охватить определенные сценарии

Я работаю над проблемой соответствия имен. Вот некоторые проблемы с именами, которые мы должны решить:

фонетические изменения правописания, например, Кернс против Кернса или Смит против Смита

Транслитерация Разница в правописании, например, Абдул Рашид против Абдул-аль-Рашид против Абдар-Рашид

· Опечатки Рашид против Ра7хид

· Прозвища, например, Уильям против Боба

· Изменение порядка имен компонентов, например, Rusell Генри против Генри Rusell

Основываясь на вышеупомянутых сценариях, я должен придумать алгоритм, основанный на глубоком обучении, который может фиксировать вышеупомянутые ошибки. Были опробованы нечеткие алгоритмы сопоставления и другие общепринятые подходы, основанные на расстоянии, такие как LF, qgram и hammimg distance, алгоритм soundex. Но качество совпадения не очень хорошее. Я просто хочу получить отправную точку, если кто-нибудь знает о каких-либо глубоких / основанных на ML подходах, чтобы хорошо уловить вышеуказанные ошибки.

Я знаю о подходе word2vec, но не уверен, что это применимо к моему случаю.

0 ответов

Другие вопросы по тегам