Описание тега countvectorizer
Этот тег предназначен для вопросов о процессе преобразования коллекции текстовых документов в числовые векторы признаков с использованием класса CountVectorizer из библиотеки Python scikit-learn.
1
ответ
Удалите числа и символы с помощью регулярных выражений на CountVectorizer
В настоящее время у меня есть функция CountVectorizer CountVectorizer(stop_words=stopwords.words('spanish'),token_pattern=r'(?u)\b\w\w+\b') с token_pattern по умолчанию используется Sklearn, и у меня есть некоторые результаты для get_features_names …
07 май '18 в 16:30
0
ответов
Добавить документ в CountVectorizer от scikit-learn?
Я хочу добавить документ в предварительно сгенерированную матрицу, используя CountVectorizer. word_counter = CountVectorizer() words_matrix = word_counter.fit_transform(['first string','second string']) Теперь я хочу добавить еще одну строку " треть…
21 апр '17 в 14:51
2
ответа
Склеарн CountVectorizer
У меня есть сомнения, используя vocabulary_.get, код выглядит следующим образом. Как видно ниже, я использовал CountVectorizer в одном из упражнений по машинному обучению, чтобы получить количество вхождений определенного слова. from sklearn.feature…
09 окт '17 в 15:39
1
ответ
Scikit Learn Count Vectorizer не находит все токены
У меня есть набор данных из 129 013 файлов, и я хочу закодировать их аналогичным образом, то есть одна встречающаяся строка - это один токен. Я использовал countVectorizer от scikit learn и пошел с vec = CountVectorizer(input='filename', token_patte…
16 авг '18 в 09:31
0
ответов
Сумма Python разреженной матрицы работает медленно
У меня есть следующий код, который очень хорошо работает для получения количества нграмм различной длины из фрагмента текста. # -*- coding: utf-8 -*- from nltk.tokenize import sent_tokenize import pandas as pd from sklearn.feature_extraction.text im…
14 окт '17 в 10:08
0
ответов
Scikitlearn (текстовый) CountVectorizer (csr_matrix) в словарь?
Я использовал функцию CountVectorizer scikit-learn для подсчета частоты слов в необработанном тексте, и, кажется, он работает при печати, но я не могу найти, как преобразовать его в словарь или массив, с которым я мог бы работать. Я пробовал.toarray…
05 дек '18 в 21:12
2
ответа
Вернуть список каждого слова в ячейке панды и общее количество этого слова во всем столбце
У меня есть фрейм данных панд, df, который выглядит так: column1 0 apple is a fruit 1 fruit sucks 2 apple tasty fruit 3 fruits what else 4 yup apple map 5 fire in the hole 6 that is true Я хочу создать column2, который является списком каждого слова…
01 окт '17 в 07:50
0
ответов
Использование только векторизатора счета
Я получаю те же результаты при использовании любого из 2 векторизатора: vect=CountVectorizer(min_df=1, token_pattern=r'[a-zA-Z0-9\-\ ]+') vX = vect.fit_transform(movies['genres']) df3=pd.DataFrame(vX.toarray(), columns=vect.get_feature_names()) Есть…
23 янв '19 в 08:24
1
ответ
Вложенный набор списков для панд DataFrame
У меня есть довольно грязный вложенный словарь, который я пытаюсь преобразовать во фрейм данных панд. Данные хранятся в словаре списков, содержащихся в более широком словаре, где следует каждая разбивка ключ / значение:{userID_key: {postID_key: [lis…
04 фев '19 в 02:02
0
ответов
Частичные слова рассматриваются как функции при использовании bangla-текстов, где ожидаются полные слова, в sk-learn countvectorizer python
Использование текстов на английском языке работает хорошо, но при использовании бенгальских текстов выводит часть слов для функций. simple_train = ['বিশ্বের সবচেয়ে ক্ষুদ্র কম্পিউটার তৈরির দাবি করেছেন যুক্তরাষ্ট্রের গবেষকেরা'] from sklearn.feature_extractio…
07 июл '18 в 06:51
1
ответ
Сделайте CountVectorizer быстрее для большого набора данных
Здравствуйте, я хочу кластеризовать фильмы на основе только их названия. Моя функция работает очень хорошо для моих данных, но у меня большая проблема, моя выборка - большие 150000 фильмов, и очень медленно, фактически, потребовалось 3 дня, чтобы об…
31 окт '17 в 08:52
1
ответ
Проблема с использованием `transform` против`fit_transform` в CountVectorizer
Я успешно обучил и протестировал модель логистической регрессии с CountVectorizer() в качестве таких: def train_model(classifier, feature_vector_train, label): # fit the training dataset on the classifier classifier.fit(feature_vector_train, label) …
24 авг '18 в 13:05
1
ответ
Как создать подкласс векторизатора в scikit-learn без повторения всех параметров в конструкторе
Я пытаюсь создать пользовательский векторизатор путем подкласса CountVectorizer, Векторизатор преобразует все слова в предложении перед подсчетом частоты слов. Затем я использую этот векторизатор в конвейере, который отлично работает, когда я делаю …
19 июл '18 в 19:30
0
ответов
Можно узнать лучшее значение для min_df и max_features?
Я работаю над программой классификации текста и использую min_df и max_features. Я уже понял, что первое - это наименьшее вхождение слова в тексте, а второе - максимум отдельных слов. Но как мы можем узнать, какое значение лучше всего использовать д…
27 авг '18 в 09:09
1
ответ
Обратное преобразование вектора количества слов в исходный документ
Я тренирую простую модель для классификации текста (в настоящее время с scikit-learn). Чтобы преобразовать образцы моего документа в векторы количества слов, используя словарь, который я использую CountVectorizer(vocabulary=myDictionaryWords).fit_tr…
13 июл '17 в 09:25
0
ответов
Эффективность Spark CountVector
Я проверил исходный код CountVectorizer. private var broadcastDict: Option[Broadcast[Map[String, Int]]] = None Он приводит набор данных в соответствие, помещает его в хэш-карты и сокращает его по ключам, получая результат для водителя. То, что у нас…
19 дек '17 в 06:59
0
ответов
Панды: Невозможно объединить текстовые столбцы
Я хочу объединить все текстовые столбцы моего фрейма данных, чтобы я мог поместить это в CountVectorizer, def populate_distance_metrics(in_df, col_list, prim_col): vect_data=in_df[col_list[0]].map(str) print (type(vect_data)) for col,idx in enumerat…
12 май '17 в 14:17
1
ответ
CountVectorizer(): у объекта StreamBackedCorpusView нет атрибута "нижний"
Я пытаюсь запустить и создать экземпляр CountVectorizer() в корпусе обзоров фильмов NLTK, используя следующий код: >>>import nltk >>>import nltk.corpus >>>from sklearn.feature_extraction.text import CountVectorizer >>…
04 сен '17 в 10:13
1
ответ
Получение NameError: имя 'countVectorizer' не определено в Pycharm
Нужна помощь с ошибкой NameError: имя 'countVectorizer' не определено в PyCharm Я пытаюсь выполнить код FEATURE EXTRACTION из этого источника https://github.com/chdoig/pytexas2015-ml Имя файла: 1-Feature_extraction.ipynb import numpy as np import pa…
03 окт '18 в 17:39
1
ответ
Что произойдет, если я просто 'vectorizer.transform(фраза)' без подгонки его?
Некоторые вещи сбивают меня с толку, когда дело доходит до векторизации фраз и их преобразования в матричную форму. Когда вы импортируете CountVectorizer или TfidfVectorizer, В чем различия функций.fit &.transform &.fit_transform? Я знаю, что ".fit"…
24 фев '18 в 17:24