Описание тега countvectorizer

Этот тег предназначен для вопросов о процессе преобразования коллекции текстовых документов в числовые векторы признаков с использованием класса CountVectorizer из библиотеки Python scikit-learn.
1 ответ

Удалите числа и символы с помощью регулярных выражений на CountVectorizer

В настоящее время у меня есть функция CountVectorizer CountVectorizer(stop_words=stopwords.words('spanish'),token_pattern=r'(?u)\b\w\w+\b') с token_pattern по умолчанию используется Sklearn, и у меня есть некоторые результаты для get_features_names …
07 май '18 в 16:30
0 ответов

Добавить документ в CountVectorizer от scikit-learn?

Я хочу добавить документ в предварительно сгенерированную матрицу, используя CountVectorizer. word_counter = CountVectorizer() words_matrix = word_counter.fit_transform(['first string','second string']) Теперь я хочу добавить еще одну строку " треть…
21 апр '17 в 14:51
2 ответа

Склеарн CountVectorizer

У меня есть сомнения, используя vocabulary_.get, код выглядит следующим образом. Как видно ниже, я использовал CountVectorizer в одном из упражнений по машинному обучению, чтобы получить количество вхождений определенного слова. from sklearn.feature…
1 ответ

Scikit Learn Count Vectorizer не находит все токены

У меня есть набор данных из 129 013 файлов, и я хочу закодировать их аналогичным образом, то есть одна встречающаяся строка - это один токен. Я использовал countVectorizer от scikit learn и пошел с vec = CountVectorizer(input='filename', token_patte…
16 авг '18 в 09:31
0 ответов

Сумма Python разреженной матрицы работает медленно

У меня есть следующий код, который очень хорошо работает для получения количества нграмм различной длины из фрагмента текста. # -*- coding: utf-8 -*- from nltk.tokenize import sent_tokenize import pandas as pd from sklearn.feature_extraction.text im…
14 окт '17 в 10:08
0 ответов

Scikitlearn (текстовый) CountVectorizer (csr_matrix) в словарь?

Я использовал функцию CountVectorizer scikit-learn для подсчета частоты слов в необработанном тексте, и, кажется, он работает при печати, но я не могу найти, как преобразовать его в словарь или массив, с которым я мог бы работать. Я пробовал.toarray…
05 дек '18 в 21:12
2 ответа

Вернуть список каждого слова в ячейке панды и общее количество этого слова во всем столбце

У меня есть фрейм данных панд, df, который выглядит так: column1 0 apple is a fruit 1 fruit sucks 2 apple tasty fruit 3 fruits what else 4 yup apple map 5 fire in the hole 6 that is true Я хочу создать column2, который является списком каждого слова…
0 ответов

Использование только векторизатора счета

Я получаю те же результаты при использовании любого из 2 векторизатора: vect=CountVectorizer(min_df=1, token_pattern=r'[a-zA-Z0-9\-\ ]+') vX = vect.fit_transform(movies['genres']) df3=pd.DataFrame(vX.toarray(), columns=vect.get_feature_names()) Есть…
23 янв '19 в 08:24
1 ответ

Вложенный набор списков для панд DataFrame

У меня есть довольно грязный вложенный словарь, который я пытаюсь преобразовать во фрейм данных панд. Данные хранятся в словаре списков, содержащихся в более широком словаре, где следует каждая разбивка ключ / значение:{userID_key: {postID_key: [lis…
04 фев '19 в 02:02
0 ответов

Частичные слова рассматриваются как функции при использовании bangla-текстов, где ожидаются полные слова, в sk-learn countvectorizer python

Использование текстов на английском языке работает хорошо, но при использовании бенгальских текстов выводит часть слов для функций. simple_train = ['বিশ্বের সবচেয়ে ক্ষুদ্র কম্পিউটার তৈরির দাবি করেছেন যুক্তরাষ্ট্রের গবেষকেরা'] from sklearn.feature_extractio…
07 июл '18 в 06:51
1 ответ

Сделайте CountVectorizer быстрее для большого набора данных

Здравствуйте, я хочу кластеризовать фильмы на основе только их названия. Моя функция работает очень хорошо для моих данных, но у меня большая проблема, моя выборка - большие 150000 фильмов, и очень медленно, фактически, потребовалось 3 дня, чтобы об…
1 ответ

Проблема с использованием `transform` против`fit_transform` в CountVectorizer

Я успешно обучил и протестировал модель логистической регрессии с CountVectorizer() в качестве таких: def train_model(classifier, feature_vector_train, label): # fit the training dataset on the classifier classifier.fit(feature_vector_train, label) …
1 ответ

Как создать подкласс векторизатора в scikit-learn без повторения всех параметров в конструкторе

Я пытаюсь создать пользовательский векторизатор путем подкласса CountVectorizer, Векторизатор преобразует все слова в предложении перед подсчетом частоты слов. Затем я использую этот векторизатор в конвейере, который отлично работает, когда я делаю …
0 ответов

Можно узнать лучшее значение для min_df и max_features?

Я работаю над программой классификации текста и использую min_df и max_features. Я уже понял, что первое - это наименьшее вхождение слова в тексте, а второе - максимум отдельных слов. Но как мы можем узнать, какое значение лучше всего использовать д…
1 ответ

Обратное преобразование вектора количества слов в исходный документ

Я тренирую простую модель для классификации текста (в настоящее время с scikit-learn). Чтобы преобразовать образцы моего документа в векторы количества слов, используя словарь, который я использую CountVectorizer(vocabulary=myDictionaryWords).fit_tr…
0 ответов

Эффективность Spark CountVector

Я проверил исходный код CountVectorizer. private var broadcastDict: Option[Broadcast[Map[String, Int]]] = None Он приводит набор данных в соответствие, помещает его в хэш-карты и сокращает его по ключам, получая результат для водителя. То, что у нас…
0 ответов

Панды: Невозможно объединить текстовые столбцы

Я хочу объединить все текстовые столбцы моего фрейма данных, чтобы я мог поместить это в CountVectorizer, def populate_distance_metrics(in_df, col_list, prim_col): vect_data=in_df[col_list[0]].map(str) print (type(vect_data)) for col,idx in enumerat…
1 ответ

CountVectorizer(): у объекта StreamBackedCorpusView нет атрибута "нижний"

Я пытаюсь запустить и создать экземпляр CountVectorizer() в корпусе обзоров фильмов NLTK, используя следующий код: >>>import nltk >>>import nltk.corpus >>>from sklearn.feature_extraction.text import CountVectorizer >&gt…
04 сен '17 в 10:13
1 ответ

Получение NameError: имя 'countVectorizer' не определено в Pycharm

Нужна помощь с ошибкой NameError: имя 'countVectorizer' не определено в PyCharm Я пытаюсь выполнить код FEATURE EXTRACTION из этого источника https://github.com/chdoig/pytexas2015-ml Имя файла: 1-Feature_extraction.ipynb import numpy as np import pa…
03 окт '18 в 17:39
1 ответ

Что произойдет, если я просто 'vectorizer.transform(фраза)' без подгонки его?

Некоторые вещи сбивают меня с толку, когда дело доходит до векторизации фраз и их преобразования в матричную форму. Когда вы импортируете CountVectorizer или TfidfVectorizer, В чем различия функций.fit &.transform &.fit_transform? Я знаю, что ".fit"…