Как оценить результат разрешения неконтролируемого объекта?
Я работаю над набором данных, который является результатом разрешения сущности (обратите внимание, что для каждой сущности может быть более двух записей). Пример:
entity_id,fname,lname,address,age,ssn
1,karli,alderson,nulsen circuit,43,123-34-25
1,karli,alderson,nulsencircuit,43,123-34-25
1,karl,alderson,nulsen ct,43,123-34-25
2,thomas,rokobaro,herschell circuit,31,344-75-01
2,flynn,rokobaro,herschell circuit,30,blank
...
Задача состоит в том, чтобы создать доверительный балл для каждой группы объектов, отражающий однородность объединенных записей.
Я провел некоторые исследования по тематике этой задачи, но большинство из предложенных подходов основаны на помеченных данных. В моем случае у меня нет основополагающей правды.
Я думал о создании парных метрик расстояния, но с масштабом моих данных я не уверен, будет ли это возможно (нет распределенного подхода для прототипирования)
Любое предложение о том, как оценка может быть сделано здесь?
Спасибо!