Как исправить плохо написанные электронные письма?
Я пытаюсь исправить плохо написанные электронные письма, содержащиеся в списке, путем поиска различий в наиболее распространенных доменах. Например: hotmal.com на hotmail.com. Дело в том, что существует множество вариантов одного домена. Было бы чрезвычайно полезно, если бы кто-то знал об алгоритме на python, который может работать как автозамена для почтовых доменов. Или, если это слишком сложная проблема для нескольких строк кода.
3 ответа
Проверьте расстояние Левенштейна, начиная с https://en.wikipedia.org/wiki/Levenshtein_distance Обычно используется для автокоррекции.
Что если... вы ищете ключевые слова в домене. Как и на hotmail.com, вы можете искать горячие или что-то подобное. Также, как и в приведенном выше ответе, вы можете объединить его с поиском по первым и последним буквам домена.
Напишите небольшой скрипт на предпочитаемом вами языке, который принимает домены, начинающиеся с h и заканчивающиеся на l, и заменяет всю строку на hotmail, чтобы исправить все промежуточное. Ищите mai, если они забыли L. Я должен был сделать это на днях на vb.net, поэтому дважды проверьте мои списки и исправьте неверные данные.