Компоненты кластеризации
При кластеризации я получаю следующее предупреждение
UserWarning: A component contained 77760 elements.
Components larger than 30000 are re-filtered.
The threshold for this filtering is 4.08109134074e-15
Что это значит?
Моя оригинальная пороговая спецификация была 0,191, как показано ниже
clustered_dupes = deduper.match(data,threshold=0.191)
0 ответов
Порог - для кофенетического подобия кластера, а не для попарного подобия.