Описание тега record-linkage

Описание тега Вопросы с тегом

Связывание записей относится к задаче поиска записей в наборе данных, которые относятся к одному и тому же объекту, когда объекты не имеют уникальных идентификаторов. Связывание записей может быть выполнено в наборе данных или между несколькими наборами данных. Почти синонимы включают разрешение сущностей, дедупликацию, слияние-очистку и нечеткое сопоставление.

2 ответа

Установка явных правил сопоставления записей с использованием библиотеки Python Dedupe

Я использую библиотеку Dedupe, чтобы сопоставлять записи о людях друг с другом. Мои данные включают в себя имя, дату рождения, адрес, номер телефона и другую личную информацию. Вот мой вопрос: я всегда хочу сопоставить две записи со 100% уверенность…

13 сен '15 в 14:02

2 ответа

Низкое использование ресурсов при использовании дедупе

Мне нужно найти дубликаты в большом наборе данных, поэтому я тестирую библиотеку дедупликации python. Я знаю, что это рекомендуется для небольших наборов данных, поэтому я подумал, что использование хорошей машины может улучшить производительность. …

python pyspark record-linkage python-dedupe

01 июн '17 в 13:15

1 ответ

Идентичность записи Python

Проблема, аналогичная R-идентификатору, но в python. Алгоритм генерирует новую идентичность, которая не отражает правильную идентичность записей, которые были совпадают. Предполагая дублирование данных с одним кадром данных. PS: в примере с дублиров…

python record-linkage

20 сен '18 в 17:12

1 ответ

Разница Джаро-Винклера между пакетами

Я использую нечеткое сопоставление, чтобы очистить ввод данных о лекарствах от пользователей, и я использую расстояние Джаро-Винклера. Я тестировал, какой пакет с расстоянием Jaro-Winkler был быстрее, когда я заметил, что настройки по умолчанию не д…

r fuzzy-comparison stringdist record-linkage

08 окт '18 в 17:24

1 ответ

Отображение соответствующих значений во фрейме данных в R

Пожалуйста, проверьте код ниже, я создал фрейм данных, используя три переменные ниже, переменная "y123" вычисляет сходство между столбцами a2 и a1. Переменная "y123" дает мне всего 16 значений, где каждое значение a1 сравнивается с a2. Мне нужно, чт…

r dplyr stringdist record-linkage

07 дек '17 в 10:52

0 ответов

Сравнить и связать строки с различными порядками слов / количеством слов

Я пытаюсь использовать пакет recordLinkage, чтобы связать вместе два набора данных, где один набор данных имеет тенденцию давать несколько фамилий / отличий, а другой просто дает одну фамилию. В настоящее время используемой функцией сравнения строк …

r string-comparison fuzzy-comparison record-linkage jaro-winkler

18 ноя '18 в 19:07

2 ответа

Дублировать таблицу на основе значений в 2 столбцах + нечеткое соответствие

У меня есть файл CSV, экспортированный из Zotero с метаданными записей моей библиотеки. Я знаю, что в нем довольно много дубликатов, но от них не так просто избавиться: Не все элементы с одинаковыми названиями на самом деле являются дубликатами, нап…

r duplicates record-linkage

26 фев '19 в 23:06

3 ответа

Показать все совпадающие пары в одном фрейме данных - Python Record Linkage

У меня есть объект MultiIndex панд: In [0]: index Out[0]: MultiIndex(levels=[[1, 2, 3, 8], [10, 11]], labels=[[0, 0, 1, 1, 2, 2, 3, 3], [0, 1, 0, 1, 0, 1, 0, 1]]) Этот объект MultiIndex определяет следующие 8 пар: (1,10), (1,11), (2,10), (2,11), (3,…

python pandas dataframe multi-index record-linkage

24 янв '19 в 15:06

0 ответов

R: Задача записи связи со всеми полями, объединенными в 1 столбце

Я должен сопоставить столбец a из набора данных A с столбцом b в наборе данных B. Но разные переменные находятся не в отдельных полях (столбцы a, b, c), а в одном и том же. Я смотрел на пакеты RecordLinkage и fastLink, они прекрасно работают с разде…

r regex record-linkage agrep

31 янв '19 в 00:22

1 ответ

Увеличьте переменную max_components в библиотеке дедупликации

Как я могу увеличить значение по умолчанию в max_components переменная? По умолчанию max_components установлен на 30000. Мне нужно увеличить этот предел, потому что каждый раз, когда я делаю дедупликацию (используя одни и те же наборы данных), я пол…

python pyspark record-linkage python-dedupe

03 авг '17 в 09:55

1 ответ

Записывает алгоритмы дедупликации (связывания)

У меня есть стандартная задача дедупликации записей: у меня есть много записей с некоторыми текстовыми (или некоторыми другими) полями, некоторые из которых соответствуют одной и той же сущности. Объединение таких записей является целью задачи. Для …

algorithm graph duplicates cluster-analysis record-linkage

13 сен '16 в 07:18

2 ответа

Используйте библиотеку дедупликации Python для возврата всех совпадений с грязным набором данных

Во-первых, если вы еще не видели библиотеку Dedupe для Python: это здорово. Как и TensorFlow, это отличный способ довести машинное обучение до массы (как я). Я пытаюсь сделать запись связи имен с одним, большим, грязным набором данных. Я сейчас испо…

fuzzy-comparison record-linkage python-dedupe

17 ноя '17 в 03:50

1 ответ

Нечеткая логика в больших наборах данных, использующих Python

Моя команда застряла с запуском алгоритма нечеткой логики для двух больших наборов данных. Первый (подмножество) содержит около 180 тысяч строк, в которых содержатся имена, адреса и электронные письма людей, которым мы должны соответствовать во втор…

python fuzzywuzzy fuzzy-logic fuzzy-comparison record-linkage

13 апр '15 в 18:55

2 ответа

Как мне эффективно связать записи с большой таблицей, используя python Dedupe?

Я пытаюсь использовать Dedupe пакет для объединения небольших беспорядочных данных в каноническую таблицу. Поскольку каноническая таблица очень большая (122 миллиона строк), я не могу загрузить все это в память. Текущий подход, который я использую, …

python mysql record-linkage python-dedupe

15 июл '15 в 18:09

1 ответ

Поиск дубликатов записей с использованием каскадных критериев с последующим объединением в одну запись

Я использую MS SQL Server 2012 и выполнил простые запросы и загрузку данных, но не зацикливал и не делал операторы case или вложенные выборки. Я ищу некоторую помощь, чтобы начать меня на подходе. Мы находимся в проекте, где мы объединяем список кли…

t-sql sql-server-2012 data-cleansing record-linkage

08 июл '17 в 17:32

0 ответов

Нет отсортированного алгоритма соседства в R?

В настоящее время я ищу способы обнаружения дублирующих записей в наборах данных с использованием R. Я попытался найти некоторую реализацию алгоритма Sorted Neighbourhood по принципу Hernandez/Stolfo (1998), но безуспешно. Я нашел пакет RecordLinkag…

r record-linkage

30 авг '18 в 09:21

1 ответ

Запись связи с использованием ECM в Python

Я работаю над проблемой связывания записей и применяю неконтролируемый алгоритм, поскольку у меня нет внешних меток. Я применил алгоритм ECM. Используемый код: import recordlinkage indexer = recordlinkage.BlockIndex(on=['FirstName_CD','LastName_CD']…

python record-linkage ecm

24 май '18 в 11:53

1 ответ

Панды нечеткие обнаруживают дубликаты

Как можно использовать нечеткое сопоставление в пандах для обнаружения дублирующих строк (эффективно) Как найти дубликаты одного столбца против всех остальных без гигантского цикла for преобразования row_i toString() и сравнения его со всеми остальн…

python pandas fuzzy-search record-linkage locality-sensitive-hash

14 сен '16 в 12:13

1 ответ

Сопоставить два набора данных со связью записей в R

Я пытаюсь сопоставить два набора данных в R: datasetA и datasetB. Эти наборы данных содержат следующие столбцы. datasetA ID: 15 Имя: Питер Сандерс First_Name: Питер Last_Name: sanders ORG_NAME: кофе и пирожное Город: Нью-Йорк Сумма (в долларах США):…

r compare matching levenshtein-distance record-linkage

15 мар '18 в 13:44

1 ответ

Использование "нечеткого поиска" при перекрестных ссылках на данные

Мой отдел занимается сбором и отображением данных из широкого круга внутрифирменных источников для использования в интеллектуальном анализе данных / информационных панелях компаний. Одна из больших проблем, с которыми мы сталкиваемся, - это перекрес…

database-design dashboard fuzzy-search data-integration record-linkage

10 фев '12 в 16:05