Как исправить плохо написанные электронные письма?

Я пытаюсь исправить плохо написанные электронные письма, содержащиеся в списке, путем поиска различий в наиболее распространенных доменах. Например: hotmal.com на hotmail.com. Дело в том, что существует множество вариантов одного домена. Было бы чрезвычайно полезно, если бы кто-то знал об алгоритме на python, который может работать как автозамена для почтовых доменов. Или, если это слишком сложная проблема для нескольких строк кода.

3 ответа

Решение

Проверьте расстояние Левенштейна, начиная с https://en.wikipedia.org/wiki/Levenshtein_distance Обычно используется для автокоррекции.

Что если... вы ищете ключевые слова в домене. Как и на hotmail.com, вы можете искать горячие или что-то подобное. Также, как и в приведенном выше ответе, вы можете объединить его с поиском по первым и последним буквам домена.

Напишите небольшой скрипт на предпочитаемом вами языке, который принимает домены, начинающиеся с h и заканчивающиеся на l, и заменяет всю строку на hotmail, чтобы исправить все промежуточное. Ищите mai, если они забыли L. Я должен был сделать это на днях на vb.net, поэтому дважды проверьте мои списки и исправьте неверные данные.

Другие вопросы по тегам