Описание тега tf-idf
"Частота термина ⨉ обратная частота документа", или "tf-idf", измеряет, насколько важно слово для документа в коллекции или корпусе.
1
ответ
Различия в dtm различаются в зависимости от tf/tfidf, один и тот же корпус
Кто-нибудь может объяснить? Мое понимание: tf >= 0 (absolute frequency value) tfidf >= 0 (for negative idf, tf=0) sparse entry = 0 nonsparse entry > 0 Таким образом, точная пропорция должна быть одинаковой в двух DTM, созданных с помощью пр…
29 ноя '16 в 12:35
0
ответов
Elasticsearch Извлечение ключевого слова
У меня есть корпус из ~10 тысяч статей. Для каждой статьи я хотел бы извлечь ключевые слова (теги). Таким образом, для каждой статьи я хотел бы ранжировать токенизированные термины в статье на основе их частоты в статье относительно их частоты в дру…
04 май '15 в 02:40
1
ответ
ValueError: X имеет 1709 объектов на выборку; ожидая 2444
Я использую этот код: import pandas as pd import numpy as np from nltk.tokenize import word_tokenize import re Использование векторизации TFIDF from sklearn.feature_extraction.text import TfidfVectorizer tv=TfidfVectorizer(max_df=0.5,min_df=2,stop_w…
03 сен '18 в 13:31
1
ответ
Определите слова, которые встречаются менее чем в 1% корпусных документов
У меня есть набор отзывов клиентов, и я хочу выделить редкие слова, которые для меня являются словами, которые встречаются менее чем в 1% корпусных документов. У меня уже есть рабочее решение, но оно слишком медленное для моего сценария: # Review da…
24 июн '18 в 15:44
1
ответ
TfIdf vectorizer, возвращающий положительные значения для отсутствующих слов
Я векторизовал корпус, используя векторизатор TfIdf в sklearn. Корпус большой, но данные более или менее выглядят так: index speaker text 1 Bob 'this is sample text' 2 Dick 'also some sample words but different ones' 3 Jane 'stuff goes here that did…
27 апр '18 в 21:11
2
ответа
Извлечь общие элементы в нескольких списках
В общем, я хочу извлечь общие элементы из колонки общего доступа "word" в нескольких CSV-файлах. (2008.csv, 2009.csv, 2010.csv .... 2015.csv) Все файлы имеют одинаковый формат: "слово", "количество" "слово" содержит все частые слова в одном документ…
16 фев '16 в 02:02
0
ответов
Может ли stw(контролируемое взвешивание) как (tf-chi, tf-ig) использоваться для мультиклассовой классификации?
Исследовательскую работу показывают только для бинарной классификации. Если мы можем использовать stw для мультиклассовой классификации, просьба привести пример в тетради Python или Jupyter. import numpy as np import scipy.sparse as sp from sklearn.…
19 май '18 в 09:42
2
ответа
python TfidfVectorizer выдает typeError: ожидаемую строку или байтовоподобный объект в CSV-файле
Я анализирую очень большой CSV-файл и пытаюсь извлечь из него информацию tf-idf с помощью scikit. К сожалению, я никогда не заканчиваю обработку данных, так как он выдает эту ошибку типа. Есть ли способ программно изменить файл CSV, чтобы устранить …
12 май '17 в 20:48
0
ответов
Добавить документ в CountVectorizer от scikit-learn?
Я хочу добавить документ в предварительно сгенерированную матрицу, используя CountVectorizer. word_counter = CountVectorizer() words_matrix = word_counter.fit_transform(['first string','second string']) Теперь я хочу добавить еще одну строку " треть…
21 апр '17 в 14:51
1
ответ
Как найти термин "частота" определенного набора тегов в документе
Как я могу найти частоту каждой из этих аннотаций; Автор, год, язык, а также частоты появления их униграмм, биграмм, триграмм... нграмм, т.е. "<author>James Parker</author><year>2008</year><lang>English</lang>" "&…
11 мар '14 в 16:05
1
ответ
Как рассчитать тф-идф?
У меня проблема, я не могу рассчитать TF-IDF с моим реальным кодом. Это пример tf-idf: $tfidf = $term_frequency * // tf log( $total_document_count / $documents_with_term, 2); // idf У меня есть все документы, но мне нужны $ documents_with_term и $ t…
18 янв '13 в 22:54
0
ответов
TF-IDF для моих документов дают 0
Я получил этот tfidf от yebrahim и каким-то образом мой выходной документ выдает все 0 для результата. Есть проблемы с этим? Примером выходных данных является бегемот 0,0 хиппер 0,0 хип 0,0 подсказка 0,0 ретроспективный 0,0 холм 0,0 веселый 0,0 Спас…
21 апр '13 в 07:55
0
ответов
Запрос на совпадение Elasticsearch 5.x: вычислить оценку с использованием частоты термина и игнорировать частоту обратных документов
Я пытаюсь запросить поле, содержащее много слов, в то время как каждое слово уже умножено на его доминирование в документе. Поэтому, здесь мне нужна частота, а idf действительно меняет оценку документов. Например, у меня есть два документа, которые …
29 май '17 в 12:20
1
ответ
НЛП - Улучшение времени выполнения и восстановление нечеткого соответствия строк
Я сделал алгоритм работы, но время работы очень ужасно. Да, я знаю с самого начала, что это будет ужасно, но не так сильно. Всего за 200000 записей программа работает более часа. В основном то, что я делаю, это: for each searchfield in search fields…
24 апр '12 в 01:33
3
ответа
tf-idf: я правильно понимаю?
Я заинтересован в кластеризации некоторых документов, и сейчас я рассматриваю возможность использования TF-IDF для этого. Если я не ошибаюсь, TF-IDF особенно используется для оценки релевантности документа по заданному запросу. Если у меня нет конкр…
29 мар '10 в 07:08
2
ответа
Случайный лес с большим количеством функций, чем точек данных
Я пытаюсь предсказать, нужно ли конкретному сервисному билету, поднятому клиентом, изменить код. У меня есть данные тренировок. У меня есть около 17 тысяч точек данных с описанием проблемы и тегом (Y для изменения кода и N для изменения кода) Я сдел…
07 мар '16 в 08:24
2
ответа
Почему этот классификатор анализа настроений TF-IDF работает так хорошо?
Jupter Notebook Последняя матрица путаницы предназначена для тестового набора. Это случай переоснащения логистической регрессией? Потому что, даже если не обрабатывать текст заранее (включая смайлики, знаки препинания), точность все равно остается …
20 дек '18 в 22:39
1
ответ
Я вычислил TF AND IDF, но как получить TF-IDF?
Из моего кода ниже: def dot(docA,docB): the_sum=0 for (key,value) in docA.items(): the_sum+=value*docB.get(key,0) return the_sum def cos_sim(docA,docB): sim=dot(docA,docB)/(math.sqrt(dot(docA,docA)*dot(docB,docB))) return sim def doc_freq(doclist): …
06 дек '18 в 13:51
1
ответ
Какие измерения расстояний хорошо работают в основанных на контенте системах рекомендаций?
Я хочу внедрить систему рекомендаций, основанную на контенте, которая предоставляет список рекомендованных книг на основе пользовательского ввода. Я буду использовать TF-IDF, чтобы определить, насколько важно слово для данной книги, и создам вектор …
24 мар '15 в 19:08
1
ответ
ValueError: установка элемента массива с последовательностью во время обучения KD TRee на TFIDF
Я пытаюсь обучить KD-Tree на TF-IDF корпуса документов, но это дает ValueError: setting an array element with a sequence. Код и описание ошибки ниже. Может кто-нибудь помочь мне разобраться в проблеме? Код: t0 = time.time() count_vect = CountVectori…
28 июн '16 в 19:25