Увеличьте переменную max_components в библиотеке дедупликации
Как я могу увеличить значение по умолчанию в max_components
переменная?
По умолчанию max_components
установлен на 30000. Мне нужно увеличить этот предел, потому что каждый раз, когда я делаю дедупликацию (используя одни и те же наборы данных), я получаю разные результаты.
Я думаю, что общее количество кластеров в моих данных превышает 30000.
1 ответ
Ответ от Github
Проблема в дедупликации github. Увеличение max_components = 30000.
Если вы получаете разные результаты, используя один и тот же сохраненный файл настроек, то то, что вы сообщаете, является ошибкой. Если вы получаете разные результаты из разных обучающих данных (или даже из одних и тех же обучающих данных), это ожидается, так как в разные моменты дедупликация использует случайную выборку для изучения хороших правил.
В любом случае я сомневаюсь, что max_components связан. Но, если вы хотите изменить его, разветвите код и измените его.