Описание тега record-linkage
Связывание записей относится к задаче поиска записей в наборе данных, которые относятся к одному и тому же объекту, когда объекты не имеют уникальных идентификаторов. Связывание записей может быть выполнено в наборе данных или между несколькими наборами данных. Почти синонимы включают разрешение сущностей, дедупликацию, слияние-очистку и нечеткое сопоставление.
2
ответа
Установка явных правил сопоставления записей с использованием библиотеки Python Dedupe
Я использую библиотеку Dedupe, чтобы сопоставлять записи о людях друг с другом. Мои данные включают в себя имя, дату рождения, адрес, номер телефона и другую личную информацию. Вот мой вопрос: я всегда хочу сопоставить две записи со 100% уверенность…
13 сен '15 в 14:02
2
ответа
Низкое использование ресурсов при использовании дедупе
Мне нужно найти дубликаты в большом наборе данных, поэтому я тестирую библиотеку дедупликации python. Я знаю, что это рекомендуется для небольших наборов данных, поэтому я подумал, что использование хорошей машины может улучшить производительность. …
01 июн '17 в 13:15
1
ответ
Идентичность записи Python
Проблема, аналогичная R-идентификатору, но в python. Алгоритм генерирует новую идентичность, которая не отражает правильную идентичность записей, которые были совпадают. Предполагая дублирование данных с одним кадром данных. PS: в примере с дублиров…
20 сен '18 в 17:12
1
ответ
Разница Джаро-Винклера между пакетами
Я использую нечеткое сопоставление, чтобы очистить ввод данных о лекарствах от пользователей, и я использую расстояние Джаро-Винклера. Я тестировал, какой пакет с расстоянием Jaro-Winkler был быстрее, когда я заметил, что настройки по умолчанию не д…
08 окт '18 в 17:24
1
ответ
Отображение соответствующих значений во фрейме данных в R
Пожалуйста, проверьте код ниже, я создал фрейм данных, используя три переменные ниже, переменная "y123" вычисляет сходство между столбцами a2 и a1. Переменная "y123" дает мне всего 16 значений, где каждое значение a1 сравнивается с a2. Мне нужно, чт…
07 дек '17 в 10:52
0
ответов
Сравнить и связать строки с различными порядками слов / количеством слов
Я пытаюсь использовать пакет recordLinkage, чтобы связать вместе два набора данных, где один набор данных имеет тенденцию давать несколько фамилий / отличий, а другой просто дает одну фамилию. В настоящее время используемой функцией сравнения строк …
18 ноя '18 в 19:07
2
ответа
Дублировать таблицу на основе значений в 2 столбцах + нечеткое соответствие
У меня есть файл CSV, экспортированный из Zotero с метаданными записей моей библиотеки. Я знаю, что в нем довольно много дубликатов, но от них не так просто избавиться: Не все элементы с одинаковыми названиями на самом деле являются дубликатами, нап…
26 фев '19 в 23:06
3
ответа
Показать все совпадающие пары в одном фрейме данных - Python Record Linkage
У меня есть объект MultiIndex панд: In [0]: index Out[0]: MultiIndex(levels=[[1, 2, 3, 8], [10, 11]], labels=[[0, 0, 1, 1, 2, 2, 3, 3], [0, 1, 0, 1, 0, 1, 0, 1]]) Этот объект MultiIndex определяет следующие 8 пар: (1,10), (1,11), (2,10), (2,11), (3,…
24 янв '19 в 15:06
0
ответов
R: Задача записи связи со всеми полями, объединенными в 1 столбце
Я должен сопоставить столбец a из набора данных A с столбцом b в наборе данных B. Но разные переменные находятся не в отдельных полях (столбцы a, b, c), а в одном и том же. Я смотрел на пакеты RecordLinkage и fastLink, они прекрасно работают с разде…
31 янв '19 в 00:22
1
ответ
Увеличьте переменную max_components в библиотеке дедупликации
Как я могу увеличить значение по умолчанию в max_components переменная? По умолчанию max_components установлен на 30000. Мне нужно увеличить этот предел, потому что каждый раз, когда я делаю дедупликацию (используя одни и те же наборы данных), я пол…
03 авг '17 в 09:55
1
ответ
Записывает алгоритмы дедупликации (связывания)
У меня есть стандартная задача дедупликации записей: у меня есть много записей с некоторыми текстовыми (или некоторыми другими) полями, некоторые из которых соответствуют одной и той же сущности. Объединение таких записей является целью задачи. Для …
13 сен '16 в 07:18
2
ответа
Используйте библиотеку дедупликации Python для возврата всех совпадений с грязным набором данных
Во-первых, если вы еще не видели библиотеку Dedupe для Python: это здорово. Как и TensorFlow, это отличный способ довести машинное обучение до массы (как я). Я пытаюсь сделать запись связи имен с одним, большим, грязным набором данных. Я сейчас испо…
17 ноя '17 в 03:50
1
ответ
Нечеткая логика в больших наборах данных, использующих Python
Моя команда застряла с запуском алгоритма нечеткой логики для двух больших наборов данных. Первый (подмножество) содержит около 180 тысяч строк, в которых содержатся имена, адреса и электронные письма людей, которым мы должны соответствовать во втор…
13 апр '15 в 18:55
2
ответа
Как мне эффективно связать записи с большой таблицей, используя python Dedupe?
Я пытаюсь использовать Dedupe пакет для объединения небольших беспорядочных данных в каноническую таблицу. Поскольку каноническая таблица очень большая (122 миллиона строк), я не могу загрузить все это в память. Текущий подход, который я использую, …
15 июл '15 в 18:09
1
ответ
Поиск дубликатов записей с использованием каскадных критериев с последующим объединением в одну запись
Я использую MS SQL Server 2012 и выполнил простые запросы и загрузку данных, но не зацикливал и не делал операторы case или вложенные выборки. Я ищу некоторую помощь, чтобы начать меня на подходе. Мы находимся в проекте, где мы объединяем список кли…
08 июл '17 в 17:32
0
ответов
Нет отсортированного алгоритма соседства в R?
В настоящее время я ищу способы обнаружения дублирующих записей в наборах данных с использованием R. Я попытался найти некоторую реализацию алгоритма Sorted Neighbourhood по принципу Hernandez/Stolfo (1998), но безуспешно. Я нашел пакет RecordLinkag…
30 авг '18 в 09:21
1
ответ
Запись связи с использованием ECM в Python
Я работаю над проблемой связывания записей и применяю неконтролируемый алгоритм, поскольку у меня нет внешних меток. Я применил алгоритм ECM. Используемый код: import recordlinkage indexer = recordlinkage.BlockIndex(on=['FirstName_CD','LastName_CD']…
24 май '18 в 11:53
1
ответ
Панды нечеткие обнаруживают дубликаты
Как можно использовать нечеткое сопоставление в пандах для обнаружения дублирующих строк (эффективно) Как найти дубликаты одного столбца против всех остальных без гигантского цикла for преобразования row_i toString() и сравнения его со всеми остальн…
14 сен '16 в 12:13
1
ответ
Сопоставить два набора данных со связью записей в R
Я пытаюсь сопоставить два набора данных в R: datasetA и datasetB. Эти наборы данных содержат следующие столбцы. datasetA ID: 15 Имя: Питер Сандерс First_Name: Питер Last_Name: sanders ORG_NAME: кофе и пирожное Город: Нью-Йорк Сумма (в долларах США):…
15 мар '18 в 13:44
1
ответ
Использование "нечеткого поиска" при перекрестных ссылках на данные
Мой отдел занимается сбором и отображением данных из широкого круга внутрифирменных источников для использования в интеллектуальном анализе данных / информационных панелях компаний. Одна из больших проблем, с которыми мы сталкиваемся, - это перекрес…
10 фев '12 в 16:05