Соответствие имени на основе глубокого обучения, чтобы охватить определенные сценарии
Я работаю над проблемой соответствия имен. Вот некоторые проблемы с именами, которые мы должны решить:
фонетические изменения правописания, например, Кернс против Кернса или Смит против Смита
Транслитерация Разница в правописании, например, Абдул Рашид против Абдул-аль-Рашид против Абдар-Рашид
· Опечатки Рашид против Ра7хид
· Прозвища, например, Уильям против Боба
· Изменение порядка имен компонентов, например, Rusell Генри против Генри Rusell
Основываясь на вышеупомянутых сценариях, я должен придумать алгоритм, основанный на глубоком обучении, который может фиксировать вышеупомянутые ошибки. Были опробованы нечеткие алгоритмы сопоставления и другие общепринятые подходы, основанные на расстоянии, такие как LF, qgram и hammimg distance, алгоритм soundex. Но качество совпадения не очень хорошее. Я просто хочу получить отправную точку, если кто-нибудь знает о каких-либо глубоких / основанных на ML подходах, чтобы хорошо уловить вышеуказанные ошибки.
Я знаю о подходе word2vec, но не уверен, что это применимо к моему случаю.