Как оценить результат разрешения неконтролируемого объекта?

Я работаю над набором данных, который является результатом разрешения сущности (обратите внимание, что для каждой сущности может быть более двух записей). Пример:

entity_id,fname,lname,address,age,ssn

1,karli,alderson,nulsen circuit,43,123-34-25

1,karli,alderson,nulsencircuit,43,123-34-25

1,karl,alderson,nulsen ct,43,123-34-25

2,thomas,rokobaro,herschell circuit,31,344-75-01

2,flynn,rokobaro,herschell circuit,30,blank

... Задача состоит в том, чтобы создать доверительный балл для каждой группы объектов, отражающий однородность объединенных записей.

Я провел некоторые исследования по тематике этой задачи, но большинство из предложенных подходов основаны на помеченных данных. В моем случае у меня нет основополагающей правды.

Я думал о создании парных метрик расстояния, но с масштабом моих данных я не уверен, будет ли это возможно (нет распределенного подхода для прототипирования)

Любое предложение о том, как оценка может быть сделано здесь?

Спасибо!

0 ответов

Другие вопросы по тегам