Описание тега python-dedupe

Вопросы о библиотеке дедупликации Python (библиотека для вероятностной дедупликации и связывания записей)
0 ответов

Структурирование результатов дедупликации в базе данных

Я использую дедуплексный проект Python, чтобы найти дубликаты названий организаций в моих данных. Многие из примеров сосредоточены на том, как обрабатывать данные, а не на том, как реализованы результаты. Существуют ли передовые практики для получен…
15 июл '17 в 12:54
2 ответа

Установка явных правил сопоставления записей с использованием библиотеки Python Dedupe

Я использую библиотеку Dedupe, чтобы сопоставлять записи о людях друг с другом. Мои данные включают в себя имя, дату рождения, адрес, номер телефона и другую личную информацию. Вот мой вопрос: я всегда хочу сопоставить две записи со 100% уверенность…
0 ответов

Заставить строки с разными значениями в определенном поле никогда не помечать как дубликаты с помощью библиотеки Python Dedupe

Я использую библиотеку Dedupe в Python для обнаружения и объединения дублирующихся строк в моих данных. Тем не менее, я не могу найти способ сказать Дедупе, что "если значения для этого поля отличаются, то эти строки определенно не являются дубликат…
25 фев '19 в 18:25
2 ответа

Низкое использование ресурсов при использовании дедупе

Мне нужно найти дубликаты в большом наборе данных, поэтому я тестирую библиотеку дедупликации python. Я знаю, что это рекомендуется для небольших наборов данных, поэтому я подумал, что использование хорошей машины может улучшить производительность. …
01 июн '17 в 13:15
0 ответов

Установка определенной версии Numpy for Dedupe Error

Я новичок в Python и уже столкнулся с некоторыми проблемами: Чтобы очистить некоторые данные, я хотел попробовать dedupe / csvdedupe Это нужно было NumPy для запуска, поэтому я установил его (работал без проблем) pip install numpy pip install dedupe…
13 июл '18 в 08:52
0 ответов

Dedupe - AttributeError: у объекта 'NoneType' нет атрибута 'indexAll'

Я использую библиотеку дедупликации, и все работает нормально, пока данные обучения не используются для дедупликации, но при расчете порога с тем же набором данных выдает следующую ошибку: deduper.threshold(data_d, recall_weight=2) AttributeError: '…
02 ноя '17 в 12:02
0 ответов

Компоненты кластеризации

При кластеризации я получаю следующее предупреждение UserWarning: A component contained 77760 elements. Components larger than 30000 are re-filtered. The threshold for this filtering is 4.08109134074e-15 Что это значит? Моя оригинальная пороговая сп…
06 апр '18 в 15:15
0 ответов

Dedupe Python - "Записи не совпадают с моделью данных"

Я застрял с настройкой Python и библиотекой дедупликации из dedupe.io для дедупликации набора записей в базе данных postgres. Ошибка - "Записи не совпадают с моделью данных", что должно быть легко решить, но я просто не понимаю, почему я получаю это…
22 янв '19 в 18:56
1 ответ

Увеличьте переменную max_components в библиотеке дедупликации

Как я могу увеличить значение по умолчанию в max_components переменная? По умолчанию max_components установлен на 30000. Мне нужно увеличить этот предел, потому что каждый раз, когда я делаю дедупликацию (используя одни и те же наборы данных), я пол…
03 авг '17 в 09:55
2 ответа

Используйте библиотеку дедупликации Python для возврата всех совпадений с грязным набором данных

Во-первых, если вы еще не видели библиотеку Dedupe для Python: это здорово. Как и TensorFlow, это отличный способ довести машинное обучение до массы (как я). Я пытаюсь сделать запись связи имен с одним, большим, грязным набором данных. Я сейчас испо…
2 ответа

Как мне эффективно связать записи с большой таблицей, используя python Dedupe?

Я пытаюсь использовать Dedupe пакет для объединения небольших беспорядочных данных в каноническую таблицу. Поскольку каноническая таблица очень большая (122 миллиона строк), я не могу загрузить все это в память. Текущий подход, который я использую, …
15 июл '15 в 18:09
0 ответов

Понимание Dedupe Gazetteer

Я изменил пример gazetteer для моих данных, которые содержат 1044 уникальных записи (канонический набор данных), чтобы соответствовать грязному набору данных (который содержит около 54170 записей). Я ожидал, что каждая запись в грязном наборе данных…
22 авг '18 в 04:28
1 ответ

Дедупликация в R эквивалент

Есть ли в R эквивалентный пакет, похожий на библиотеку дедупликации в Python? Причина в том, что я использовал пакет 'Record Linkage' в прошлом, но когда дело доходит до больших наборов данных, мне, кажется, трудно. Dedupe, кажется, работает очень б…
05 фев '18 в 12:54
0 ответов

Python-Dedupe удаляет кластерные дубликаты в результате

Сайт используется для справки: https://github.com/dedupeio/dedupe-examples/blob/master/pgsql_example/pgsql_example.py Я пробовал пример Python Dedupe из Mysql: Программа работает нормально, однако я заметил ошибку в данном результате So Number of Cl…
30 май '18 в 07:35
1 ответ

Значения не вставляются в таблицу MySQL с помощью pool.apply_async в python2.7

Я пытаюсь запустить следующий код для параллельного заполнения таблицы для определенного приложения. Сначала определяется следующая функция, которая должна подключаться к моей базе данных и выполнять команду sql с указанными значениями (для вставки …
0 ответов

Новая запись кластера в кластеризованной таблице Дедупе

Я использую Python Dedupe для дедупликации для нашей базы данных MDM. Пока что он работает нормально после достаточного обучения, и сформирована таблица карты сущностей, которая показывает вам Cluster_id, каноническое имя и оценку. Я застрял и не ув…
13 дек '17 в 15:04
0 ответов

Python Postgresql дедуплицирует много времени. Может ли быть какая-либо оптимизация?

Я использую пример кода postgres dedupe. Для 10000 строк это занимает 163 секунды. Я обнаружил, что это занимает большую часть времени в этой части: full_data = [] cluster_membership = collections.defaultdict(lambda : 'x') for cluster_id, (cluster, …
01 авг '17 в 03:22
0 ответов

dedupe trainingDataDedupe

Эта функция доступна только в API? Я использую библиотеку python, которая отлично работает, но пытаюсь использовать вышеуказанную функцию из сценария удобства. trainingDataDedupe(data,key, 10000) где данные и ключ предварительно определены как data …
21 мар '18 в 16:16
0 ответов

Необходимо понять, как я могу пропустить интерактивное приглашение при выполнении pandas_dedupe.dedupe_dataframe()

Я пытаюсь использовать pandas "pandas_dedupe.dedupe_dataframe" pkg/function для поиска кластеров записей, имеющих похожие свойства при определенном выборе столбцов. Проблема в том, что я интегрирую этот код с моим UI-приложением и не хочу, чтобы мои…
14 фев '19 в 07:08
0 ответов

ZeroDivisionError в дедупе питоне

Я также столкнулся с той же проблемой, что и ZeroDivisionError: деление на ноль при идентификации дублирующихся записей с использованием дедупликации. Я пытался с "имеет отсутствует" и замена пустого столбца с "нулевыми" значениями. Но все равно оши…
27 фев '19 в 20:41