Описание тега tfidfvectorizer

Используется в SKLearn для преобразования набора необработанных документов в матрицу функций TF-IDF.
2 ответа

Как перебрать TfidfVectorizer() на панде

У меня есть большой массив данных для панд с 10 миллионами записей новостных статей. Итак, вот как я подал заявку TfidfVectorizer, from sklearn.feature_extraction.text import TfidfVectorizer tfidf = TfidfVectorizer() feature_matrix = tfidf.fit_trans…
1 ответ

Повторное использование модели классификации текста sklearn с выбором функции tf-idf

Я относительно новичок в области sk-learning и машинного обучения, поэтому прощаю любое возможное невежество. Я делаю модель для классификации активов на основе текстового описания (в Python). Существует только один предиктор (текст) и одна прогнози…
1 ответ

Сохраненный Tfidf-Vectorizer ValueError при повторной загрузке

Я подготовил Tfidf-Vectorizer для PassiveAgressive Classifier и проверил его, все работает просто отлично. Затем я сохранил установленный векторизатор и обученный классификатор для последующего использования. Когда я снова загрузил векторизатор, я п…
0 ответов

Как расширить слова векторизатора tfidf в sklearn, не переучивая всю модель с нуля?

У меня есть несколько текстовых документов, которые я добавляю в векторизатор tfidf, которые я в дальнейшем использую для классификации текста по нескольким меткам. Я буду продолжать получать больше документов в будущем. Теперь, как мне добавить нов…
0 ответов

Используйте термины из tf-idf для моделирования темы в Python

У меня есть dataframe, который имеет текстовый столбец. Я очистил данные и применил tf-idf, чтобы получить важные условия из документов. Теперь я хочу передать эти термины в LDA, чтобы получить темы. И я не знаю, как это сделать. from sklearn.featur…
0 ответов

Как добавить синонимное распознавание в tfidfvectorizer с помощью scikit-learn?

Я использую tfidfvectorizer от sklearn. Я не хочу добавлять к объекту синонимичный словарь, например, к одному и тому же термину "дом" и "дом". Как мне это сделать?
27 мар '18 в 17:43
0 ответов

Создание вектора tfidf запроса с помощью scikit learn

Я хочу создать матрицу терминальных документов с векторизацией tfidf, что довольно просто с scikit learns tfidfVectrizer. У меня был вопрос: как я могу использовать совокупность слов для создания значений tfidf, но использовать значения idf документ…
0 ответов

Применить tfidf с керасом для классификации мультиклассовых текстов в python

Я применяю skealearn на 10 класс текстовой классификации, я использую def featureextraction2(data , clf): data.dropna(inplace=True) X_train, X_test, y_train, y_test = \ train_test_split(data['text'], data['class'], random_state = 0) vect = CountVect…
3 ответа

Как сравнить два текстовых документа с векторизатором tfidf?

У меня есть два разных текста, которые я хочу сравнить, используя векторизацию tfidf. Что я делаю, это: маркировка каждого документа векторизация с использованием TFIDFVectorizer.fit_transform(tokens_list) Теперь векторы, которые я получаю после шаг…
12 дек '18 в 17:20
1 ответ

FeatureUnion, конвейерные категориальные функции с ошибкой выброса функций tfidf

Я пытаюсь объединить функции из tfidf и другие категориальные функции для выполнения классификации по результирующему набору данных. Из разных блогов я понимаю, что FeatureUnion можно использовать для объединения функций, а затем передать их в алгор…
2 ответа

Tfidfvectorizer от sklearn - как получить матрицу

Я хотел бы получить матрицу из объекта Tfidfvectorizer из sklearn. Вот мой код: from sklearn.feature_extraction.text import TfidfVectorizer text = ["The quick brown fox jumped over the lazy dog.", "The dog.", "The fox"] vectorizer = TfidfVectorizer(…
08 янв '19 в 18:58
1 ответ

Tf-idf с char_wb игнорирует пользовательский препроцессор?

Я имею import nltk from nltk.stem.snowball import GermanStemmer def my_tokenizer(doc): stemmer= GermanStemmer() return([stemmer.stem(t.lower()) for t in nltk.word_tokenize(doc) if t.lower() not in my_stop_words]) text="hallo df sdfd" singleTFIDF = T…
22 янв '19 в 14:50
1 ответ

Разница между словарем и get_features() в TfidfVectorizer?

Я имею from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.metrics.pairwise import cosine_similarity # Train the vectorizer text="this is a simple example" singleTFIDF = TfidfVectorizer(ngram_range=(1,2)).fit([text]) singleTFIDF…
23 янв '19 в 20:35
0 ответов

Получение Vector.toarray() как 0 в векторизаторе Tfidf

Я загрузил текстовый файл из Интернета, и я пытаюсь очистить и создать векторы Tfidf. Ниже приведен код, я получаю все 0 в массиве (окончательная печать). не понимая, если это правильно или неправильно. file = 'C:/Study/Machine Learning/Dataset/NLP_…
07 фев '19 в 19:44
1 ответ

Два цикла Python, которые выглядят так, как будто они должны делать то же самое, но выводить разные результаты?

Вчера я пытался завершить Урок 11 Udacity, посвященный векторизации текста. Я просмотрел код, и все это, казалось, работало нормально - я беру несколько писем, открываю их, удаляю несколько слов подписи и возвращаю слова из каждого письма в список. …
0 ответов

Могу ли я использовать векторизатор tfidf на Android

Я хочу использовать tf idf vectorizer в приложении для Android, в любом случае, можно ли это сделать без обучения на облачных машинах, так как я хочу узнать тему некоторых предложений
19 авг '18 в 04:26
1 ответ

TypeError: fit_transform() отсутствует 1 обязательный позиционный аргумент: 'raw_documents'

Я пытаюсь сделать текст извлечения функций со Sklearn, однако я получаю ошибку Ошибка типа:fit_transform() отсутствует 1 обязательный позиционный аргумент: 'raw_documents' Кажется, я должен сделать некоторые аргументы с отсутствующим необработанным …
1 ответ

Как я могу кластеризовать текстовые данные с несколькими столбцами?

Я хотел бы сделать ак средства кластеризации с текстовыми данными книги, имеющими столбцы "заголовок", "жанр", "обзор" и "синопсис". Я хочу использовать "заголовок" в качестве индикатора или первичного ключа для кластеризации, но я не уверен, как ис…
1 ответ

Объяснение параметра use_idf векторизатора tf-idf

Как использовать параметр use_idf в tfidf Vectorizer? Документация не дает большого объяснения по этому поводу. кто-нибудь может это объяснить?
1 ответ

Как извлечь TF с помощью CountVectorizer?

Как я могу получить частоту термина (TF) каждого термина в словаре, созданном sklearn.feature_extraction.text.CountVectorizer и положить их в список или диктат? Кажется, что все значения, соответствующие ключам в словаре, являются целыми числами, ме…