TF-IDF - доступ к большой разреженной матрицей и получение самых высоких значений

Question

TF-IDF - доступ к большой разреженной матрицей и получение самых высоких значений

Для матрицы результатов tfidf я хотел получить верхние значения tfidf. Я видел, как можно установить максимальное количество функций для векторизатора tfidf, но это для слов с наибольшим количеством tf. Я все еще хочу получить высокие значения для tfidf, которые могут включать слова с низким tf. Одна идея, которую я искал, это делать что-то вроде tf_idf_matrix.sum(axis=0), который бы суммировал столбцы. Это работает в моем коде, но из-за 113k столбцов, печать не будет показывать их все. Если бы я мог использовать что-то вроде argsort() чтобы получить доступ к значениям суммы верхнего столбца K, это было бы полезно.

Этот вопрос вытекает из моего первоначального вопроса, который здесь.

Причина в том, что я хочу знать, на какие слова мне стоит обратить внимание, а не на те, которые имеют наибольшую частоту. Я также хотел бы знать о "аномалиях", то есть словах, которые могут появляться не во всех или во многих документах / сообщениях, но могут иметь высокое значение tfidf в одном или нескольких документах. Если есть другие подходы, которые я должен рассмотреть, я хотел объяснить это.

Спасибо

2

scikit-learn scipy tf-idf

Источник

user2872651 13 ноя '13 в 21:41

0 ответов

Другие вопросы по тегам scikit-learn scipy tf-idf