Существуют ли бесплатные, недорогие или открытые инструменты для сопоставления данных имени / адреса?

Этот вопрос относится к инструментам для сопоставления данных имени / адреса. Существует ряд коммерческих инструментов, предоставляемых SAS, Oracle, Microsoft и т. Д., Которые позволяют дедуплицировать или объединять имена отдельных лиц или компаний из разных источников.

Однако после прочтения ответов на вопрос, упомянутый ранее, я удивился, почему, казалось бы, интересная проблема не получила ответов, в которых упоминаются проекты с открытым исходным кодом, которые могли бы решить эту проблему.

Известны ли вам какие-либо проекты или алгоритмы с открытым исходным кодом для реализации так называемого "связывания записей", "объединения записей" или "кластеризации"?

3 ответа

Решение

Я бы порекомендовал Google Refine в качестве инструмента с открытым исходным кодом ( новая лицензия BSD) для анализа и исправления грубых данных. Это также позволяет кластеризовать и согласовывать дублирующиеся данные, а также иметь функции интеллектуального анализа данных.

Я использовал его для успешного импорта и исправления большого количества данных в различных форматах:.csv,.tsv,.xls,.xml, .json, .rdf и т. Д. Он может использоваться внутри компании без отправки каких-либо данных извне, что, как представляется, вызывает озабоченность в связи с вопросом "инструменты для сопоставления данных имя / адрес"

NB. Google Refine ранее назывался Freebase Gridworks.

Попробуйте OSDQ с открытым исходным кодом качества и профилирования проекта на sourceforge

Я наткнулся на следующую статью: " Слияние / продувка и обнаружение дубликатов".

Просматривая http://www.semaphorecorp.com/ я обнаружил, что цены очень низкие.

Это не то, что я ищу, но, по крайней мере, немного помощи и шаг в правильном направлении.

Другие вопросы по тегам