fsWeights в RLBigDataLinkage в R
Мы используем RLBiggDataLinkage в R для связывания двух записей 1. Основные данные (~1,6 миллиона записей) 2. Цель (~100 000 записей)
Столбцы: имя, фамилия, адрес, почтовый индекс, уникальный идентификатор 1, уникальный идентификатор 2
уникальные идентификаторы не доступны для всех записей в обоих наборах данных. хотя, когда они доступны, им следует придавать первостепенное значение.
мы используем fsWeights для того, чтобы предоставить m и u вероятность и отсечки, чтобы иметь фиксированный вес для шаблона соответствия
compare_fs<- fsWeights (compare_lm, m = c (0.99,0.99,0.8,0.6,0.9,0.6,0.99,0.99,0.85), u = c (0,000001,0,000008,0,00003,0,00003,0,8,0,009,0,000001,0,000001, 0,000003), отсечка = с (1,0,95,0,95,0,9,1,0,98,0,99,99,1))
мы используем сравнение строк во всех наших столбцах и блокируем первые 3 символа имени (это делается для того, чтобы не пропустить пары с орфографическими ошибками в имени)
compare_lm<- RLBigDataLinkage (master_lm, target_lm, blockfld = c ("FIRST_NAME_3"), strcmp = c ("FIRST_NAME", "LAST_NAME", "ADDRESS1", "ZIP_OR_POSTAL_CODE", UNIQU2 "UNID)" UNIQUE ", UNIQUE_ID jarowinkler ", exclude = c (" ID "))
Наше условие совпадения: когда идентификаторы доступны в обеих парах записей, тогда как минимум 1 идентификатор должен совпадать, иначе
имя, фамилия, адрес должны совпадать.
с помощью fsweights мы получаем разные веса для одинаковых пар, например, для пары 1: вес 27,33. имя, фамилия, адрес совпадения. идентификаторы нулевые в основных данных. Правильное соответствие
AMMANARI ASSEVERO 71RATHERAVESTE130STE130 12534 NA
AMMANARIA ASSEVERO 71RATHERAVE 12534 AASSEVERO@CMH-NET.ORG 761669 523783006
пара 2: вес 27,33. только имя, фамилия совпадают. адрес и идентификаторы не совпадают
ДЖОН СУК 1532SULTANAVE 70112 nursejd@cox.net 67541 740753012 ДЖОН СУК 201LYONSAVE 7112 SRSOOKE314@GMAIL.COM 9110520 350169181
Пара 3: вес 42 . имя, фамилия, адрес совпадения. идентификаторы нулевые в основных данных.
BORGES TENCIA 2608ERESIDENTIALBLVD 33344 NA
BORGES TENCIA 2608ERESIDENTIALBLVD 33344 BORGES.TENCIA@HOLY-CROSS.COM 1519647 3008480850
Пара 1 и 3 должны набирать вес в соответствии с заданным значением m и u и отрезать
Как мы можем увеличить вес пары 1 или уменьшить вес пары 2, чтобы у нас были все правильные совпадения.