Увеличьте переменную max_components в библиотеке дедупликации

Как я могу увеличить значение по умолчанию в max_components переменная?

По умолчанию max_components установлен на 30000. Мне нужно увеличить этот предел, потому что каждый раз, когда я делаю дедупликацию (используя одни и те же наборы данных), я получаю разные результаты.

Я думаю, что общее количество кластеров в моих данных превышает 30000.

1 ответ

Решение

Ответ от Github

Проблема в дедупликации github. Увеличение max_components = 30000.

Если вы получаете разные результаты, используя один и тот же сохраненный файл настроек, то то, что вы сообщаете, является ошибкой. Если вы получаете разные результаты из разных обучающих данных (или даже из одних и тех же обучающих данных), это ожидается, так как в разные моменты дедупликация использует случайную выборку для изучения хороших правил.

В любом случае я сомневаюсь, что max_components связан. Но, если вы хотите изменить его, разветвите код и измените его.

Другие вопросы по тегам