TF-IDF - доступ к большой разреженной матрицей и получение самых высоких значений
Для матрицы результатов tfidf я хотел получить верхние значения tfidf. Я видел, как можно установить максимальное количество функций для векторизатора tfidf, но это для слов с наибольшим количеством tf. Я все еще хочу получить высокие значения для tfidf, которые могут включать слова с низким tf. Одна идея, которую я искал, это делать что-то вроде tf_idf_matrix.sum(axis=0)
, который бы суммировал столбцы. Это работает в моем коде, но из-за 113k столбцов, печать не будет показывать их все. Если бы я мог использовать что-то вроде argsort()
чтобы получить доступ к значениям суммы верхнего столбца K, это было бы полезно.
Этот вопрос вытекает из моего первоначального вопроса, который здесь.
Причина в том, что я хочу знать, на какие слова мне стоит обратить внимание, а не на те, которые имеют наибольшую частоту. Я также хотел бы знать о "аномалиях", то есть словах, которые могут появляться не во всех или во многих документах / сообщениях, но могут иметь высокое значение tfidf в одном или нескольких документах. Если есть другие подходы, которые я должен рассмотреть, я хотел объяснить это.
Спасибо