Разъяснение использования original_length в функции Sample и повторное использование обученной модели

Этот вопрос касается использования пакета Python Dedupe для разрешения сущностей:

Как упомянуто и объяснено в документах и ​​других вопросах, связанных с пакетом, мы можем выполнить обучение на случайной выборке данных (и предоставить исходную длину выборки), а затем мы можем загрузить сохраненные настройки и выполнить дедупликацию / сборник данных. на исходных данных.

Мой вопрос: предположим, для gazetteer, у нас есть канонический набор из N строк, и мы хотим сопоставить с ним данные из M строк. Но мы не хотим тренироваться каждый раз для нового аналогичного набора данных или когда новые строки добавляются в мои данные. Учитывая предоставленную мною исходную длину, каковы потенциальные недостатки использования модели для наборов данных разных размеров (но похожих)? Если есть какие-то недостатки, есть ли решение?

Спасибо.

0 ответов

Другие вопросы по тегам