Объяснение параметра use_idf векторизатора tf-idf
Как использовать параметр use_idf в tfidf Vectorizer? Документация не дает большого объяснения по этому поводу. кто-нибудь может это объяснить?
1 ответ
Решение
Если use_idf
установлен в True
(что является значением по умолчанию), то при преобразовании учитывается обратная частота документов. Это приводит к тому, что токены, которые появляются во многих документах, автоматически будут считаться менее информативными, чем те, которые появляются в меньшем количестве документов.
Если вы установите его False
используется только термин-частота (количество слов в документе).
Проверьте это хорошее объяснение в Википедии.