Словарь соответствия имен для поиска вариантов имени и фамилии
У меня есть приложение, которое будет хранить и отслеживать посетителей. Эти посетители создаются в системе планировщиками (пользователями) по мере необходимости при настройке посещения. Проблема в том, что в большинстве случаев единственными важными уникальными идентификаторами посетителя являются следующие:
- Имя
- Фамилия
- название компании
Риск повторяющихся записей, существующих для одного и того же человека, присущ, планировщик может ввести новую запись посетителя вместо поиска в системе кого-либо, существующего с таким именем.
Когда я сталкиваюсь с кем-то, заходящим к посетителю с тем же именем, я отображаю диалоговое окно с предупреждением о том, кем может быть этот человек, но даже этого недостаточно.
Я мог бы ввести "Джим Джонс", и этот человек может существовать в системе как "Джеймс Джонс" или "Джимми Джонс". Я вижу, что есть доступные программные пакеты для распознавания имен, но они дорогие и, конечно, более тяжелые, чем то, что я ищу.
Кто-нибудь знает, где найти бесплатный словарь или файл с открытым исходным кодом, к которому я могу получить программный доступ, чтобы найти возможные варианты имен? Было бы неплохо программное обеспечение или онлайн-сервис, но подойдет даже дамп данных или простой текстовый файл.
Я знаю, что даже это не предотвратит дублирование записей о посетителях, я просто стараюсь сохранить это как минимум, чтобы это не критично.
1 ответ
Проверьте проект Moby (http://icon.shef.ac.uk/Moby/mwords.html) для общих имен и фамилий. Вы можете выполнить предварительное вычисление для похожих имен, используя такие инструменты, как metaphone и soundex, и использовать его для определения потенциальных совпадений. Вы также упоминаете названия компаний, которые немного сложнее в управлении, так как они могут состоять из множества вещей, для этого, возможно, посмотрите список из 12 слов (http://wordlist.sourceforge.net/) 2+2lemma Список, представленный в этом пакете, предоставляет несколько форм, которые имеют общие корни, которые могут использоваться в сочетании с аналогичным решением для орфографии, чтобы обеспечить улучшенные результаты.