Объяснение параметра use_idf векторизатора tf-idf

Как использовать параметр use_idf в tfidf Vectorizer? Документация не дает большого объяснения по этому поводу. кто-нибудь может это объяснить?

1 ответ

Решение

Если use_idf установлен в True (что является значением по умолчанию), то при преобразовании учитывается обратная частота документов. Это приводит к тому, что токены, которые появляются во многих документах, автоматически будут считаться менее информативными, чем те, которые появляются в меньшем количестве документов.

Если вы установите его Falseиспользуется только термин-частота (количество слов в документе).

Проверьте это хорошее объяснение в Википедии.

Другие вопросы по тегам