Описание тега tfidfvectorizer
Используется в SKLearn для преобразования набора необработанных документов в матрицу функций TF-IDF.
2
ответа
Как перебрать TfidfVectorizer() на панде
У меня есть большой массив данных для панд с 10 миллионами записей новостных статей. Итак, вот как я подал заявку TfidfVectorizer, from sklearn.feature_extraction.text import TfidfVectorizer tfidf = TfidfVectorizer() feature_matrix = tfidf.fit_trans…
18 июл '18 в 05:32
1
ответ
Повторное использование модели классификации текста sklearn с выбором функции tf-idf
Я относительно новичок в области sk-learning и машинного обучения, поэтому прощаю любое возможное невежество. Я делаю модель для классификации активов на основе текстового описания (в Python). Существует только один предиктор (текст) и одна прогнози…
16 ноя '18 в 16:46
1
ответ
Сохраненный Tfidf-Vectorizer ValueError при повторной загрузке
Я подготовил Tfidf-Vectorizer для PassiveAgressive Classifier и проверил его, все работает просто отлично. Затем я сохранил установленный векторизатор и обученный классификатор для последующего использования. Когда я снова загрузил векторизатор, я п…
20 мар '18 в 20:55
0
ответов
Как расширить слова векторизатора tfidf в sklearn, не переучивая всю модель с нуля?
У меня есть несколько текстовых документов, которые я добавляю в векторизатор tfidf, которые я в дальнейшем использую для классификации текста по нескольким меткам. Я буду продолжать получать больше документов в будущем. Теперь, как мне добавить нов…
06 мар '18 в 15:36
0
ответов
Используйте термины из tf-idf для моделирования темы в Python
У меня есть dataframe, который имеет текстовый столбец. Я очистил данные и применил tf-idf, чтобы получить важные условия из документов. Теперь я хочу передать эти термины в LDA, чтобы получить темы. И я не знаю, как это сделать. from sklearn.featur…
09 июл '18 в 18:24
0
ответов
Как добавить синонимное распознавание в tfidfvectorizer с помощью scikit-learn?
Я использую tfidfvectorizer от sklearn. Я не хочу добавлять к объекту синонимичный словарь, например, к одному и тому же термину "дом" и "дом". Как мне это сделать?
27 мар '18 в 17:43
0
ответов
Создание вектора tfidf запроса с помощью scikit learn
Я хочу создать матрицу терминальных документов с векторизацией tfidf, что довольно просто с scikit learns tfidfVectrizer. У меня был вопрос: как я могу использовать совокупность слов для создания значений tfidf, но использовать значения idf документ…
02 дек '18 в 10:20
0
ответов
Применить tfidf с керасом для классификации мультиклассовых текстов в python
Я применяю skealearn на 10 класс текстовой классификации, я использую def featureextraction2(data , clf): data.dropna(inplace=True) X_train, X_test, y_train, y_test = \ train_test_split(data['text'], data['class'], random_state = 0) vect = CountVect…
05 дек '18 в 18:42
3
ответа
Как сравнить два текстовых документа с векторизатором tfidf?
У меня есть два разных текста, которые я хочу сравнить, используя векторизацию tfidf. Что я делаю, это: маркировка каждого документа векторизация с использованием TFIDFVectorizer.fit_transform(tokens_list) Теперь векторы, которые я получаю после шаг…
12 дек '18 в 17:20
1
ответ
FeatureUnion, конвейерные категориальные функции с ошибкой выброса функций tfidf
Я пытаюсь объединить функции из tfidf и другие категориальные функции для выполнения классификации по результирующему набору данных. Из разных блогов я понимаю, что FeatureUnion можно использовать для объединения функций, а затем передать их в алгор…
13 дек '18 в 08:23
2
ответа
Tfidfvectorizer от sklearn - как получить матрицу
Я хотел бы получить матрицу из объекта Tfidfvectorizer из sklearn. Вот мой код: from sklearn.feature_extraction.text import TfidfVectorizer text = ["The quick brown fox jumped over the lazy dog.", "The dog.", "The fox"] vectorizer = TfidfVectorizer(…
08 янв '19 в 18:58
1
ответ
Tf-idf с char_wb игнорирует пользовательский препроцессор?
Я имею import nltk from nltk.stem.snowball import GermanStemmer def my_tokenizer(doc): stemmer= GermanStemmer() return([stemmer.stem(t.lower()) for t in nltk.word_tokenize(doc) if t.lower() not in my_stop_words]) text="hallo df sdfd" singleTFIDF = T…
22 янв '19 в 14:50
1
ответ
Разница между словарем и get_features() в TfidfVectorizer?
Я имею from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.metrics.pairwise import cosine_similarity # Train the vectorizer text="this is a simple example" singleTFIDF = TfidfVectorizer(ngram_range=(1,2)).fit([text]) singleTFIDF…
23 янв '19 в 20:35
0
ответов
Получение Vector.toarray() как 0 в векторизаторе Tfidf
Я загрузил текстовый файл из Интернета, и я пытаюсь очистить и создать векторы Tfidf. Ниже приведен код, я получаю все 0 в массиве (окончательная печать). не понимая, если это правильно или неправильно. file = 'C:/Study/Machine Learning/Dataset/NLP_…
07 фев '19 в 19:44
1
ответ
Два цикла Python, которые выглядят так, как будто они должны делать то же самое, но выводить разные результаты?
Вчера я пытался завершить Урок 11 Udacity, посвященный векторизации текста. Я просмотрел код, и все это, казалось, работало нормально - я беру несколько писем, открываю их, удаляю несколько слов подписи и возвращаю слова из каждого письма в список. …
22 янв '19 в 21:52
0
ответов
Могу ли я использовать векторизатор tfidf на Android
Я хочу использовать tf idf vectorizer в приложении для Android, в любом случае, можно ли это сделать без обучения на облачных машинах, так как я хочу узнать тему некоторых предложений
19 авг '18 в 04:26
1
ответ
TypeError: fit_transform() отсутствует 1 обязательный позиционный аргумент: 'raw_documents'
Я пытаюсь сделать текст извлечения функций со Sklearn, однако я получаю ошибку Ошибка типа:fit_transform() отсутствует 1 обязательный позиционный аргумент: 'raw_documents' Кажется, я должен сделать некоторые аргументы с отсутствующим необработанным …
03 фев '19 в 09:45
1
ответ
Как я могу кластеризовать текстовые данные с несколькими столбцами?
Я хотел бы сделать ак средства кластеризации с текстовыми данными книги, имеющими столбцы "заголовок", "жанр", "обзор" и "синопсис". Я хочу использовать "заголовок" в качестве индикатора или первичного ключа для кластеризации, но я не уверен, как ис…
25 июн '18 в 21:58
1
ответ
Объяснение параметра use_idf векторизатора tf-idf
Как использовать параметр use_idf в tfidf Vectorizer? Документация не дает большого объяснения по этому поводу. кто-нибудь может это объяснить?
18 июн '18 в 07:49
1
ответ
Как извлечь TF с помощью CountVectorizer?
Как я могу получить частоту термина (TF) каждого термина в словаре, созданном sklearn.feature_extraction.text.CountVectorizer и положить их в список или диктат? Кажется, что все значения, соответствующие ключам в словаре, являются целыми числами, ме…
06 ноя '18 в 08:59