fsWeights в RLBigDataLinkage в R

Мы используем RLBiggDataLinkage в R для связывания двух записей 1. Основные данные (~1,6 миллиона записей) 2. Цель (~100 000 записей)

Столбцы: имя, фамилия, адрес, почтовый индекс, уникальный идентификатор 1, уникальный идентификатор 2

уникальные идентификаторы не доступны для всех записей в обоих наборах данных. хотя, когда они доступны, им следует придавать первостепенное значение.

мы используем fsWeights для того, чтобы предоставить m и u вероятность и отсечки, чтобы иметь фиксированный вес для шаблона соответствия

compare_fs<- fsWeights (compare_lm, m = c (0.99,0.99,0.8,0.6,0.9,0.6,0.99,0.99,0.85), u = c (0,000001,0,000008,0,00003,0,00003,0,8,0,009,0,000001,0,000001, 0,000003), отсечка = с (1,0,95,0,95,0,9,1,0,98,0,99,99,1))

мы используем сравнение строк во всех наших столбцах и блокируем первые 3 символа имени (это делается для того, чтобы не пропустить пары с орфографическими ошибками в имени)

compare_lm<- RLBigDataLinkage (master_lm, ​​target_lm, blockfld = c ("FIRST_NAME_3"), strcmp = c ("FIRST_NAME", "LAST_NAME", "ADDRESS1", "ZIP_OR_POSTAL_CODE", UNIQU2 "UNID)" UNIQUE ", UNIQUE_ID jarowinkler ", exclude = c (" ID "))

Наше условие совпадения: когда идентификаторы доступны в обеих парах записей, тогда как минимум 1 идентификатор должен совпадать, иначе

имя, фамилия, адрес должны совпадать.

с помощью fsweights мы получаем разные веса для одинаковых пар, например, для пары 1: вес 27,33. имя, фамилия, адрес совпадения. идентификаторы нулевые в основных данных. Правильное соответствие

AMMANARI ASSEVERO 71RATHERAVESTE130STE130 12534 NA
AMMANARIA ASSEVERO 71RATHERAVE 12534 AASSEVERO@CMH-NET.ORG 761669 523783006

пара 2: вес 27,33. только имя, фамилия совпадают. адрес и идентификаторы не совпадают

ДЖОН СУК 1532SULTANAVE 70112 nursejd@cox.net 67541 740753012 ДЖОН СУК 201LYONSAVE 7112 SRSOOKE314@GMAIL.COM 9110520 350169181

Пара 3: вес 42 . имя, фамилия, адрес совпадения. идентификаторы нулевые в основных данных.

BORGES TENCIA 2608ERESIDENTIALBLVD 33344 NA
BORGES TENCIA 2608ERESIDENTIALBLVD 33344 BORGES.TENCIA@HOLY-CROSS.COM 1519647 3008480850

Пара 1 и 3 должны набирать вес в соответствии с заданным значением m и u и отрезать

Как мы можем увеличить вес пары 1 или уменьшить вес пары 2, чтобы у нас были все правильные совпадения.

0 ответов

Другие вопросы по тегам