Описание тега nltk-trainer

3 ответа

Как добавить пользовательские корпуса на локальную машину в nltk

У меня есть пользовательские корпуса, которые созданы с данными, которые мне нужно сделать некоторую классификацию. У меня есть набор данных в том же формате, который содержится в корпусе movie_reviews. Согласно документации nltk я использую следующ…
11 фев '17 в 13:56
0 ответов

Выявление интереса / темы из текста

Я пытаюсь построить модель, которая будет пытаться идентифицировать интересующую категорию / тему предоставленного текста. Например: Магазин для свадебных сари свадьбы от нашего изнурительного разнообразия красивых и дизайнерских сари. Получите выго…
01 окт '16 в 12:55
0 ответов

feature_names.sort() TypeError: '<' не поддерживается между экземплярами 'str' и 'tuple'

Я пытаюсь классифицировать текст с помощью полиномиального классификатора с экстрактором функций Bigram. Коды следующие: from nltk.classify.scikitlearn import SklearnClassifier from sklearn.naive_bayes import MultinomialNB from nltk.tokenize import …
0 ответов

Как справиться со словами, которые имеют пробел между символами?

Я использую nltk.word_tokenize на языке дари. Проблема в том, что у нас есть пробел между одним словом.Например слово "زنده گی" что означает жизнь. И то же самое; у нас есть много других слов. Все слова, заканчивающиеся символом "ه" мы должны дать м…
20 сен '17 в 09:29
1 ответ

Классификация слов с использованием алгоритма машинного обучения

Я новичок в машинном обучении. В настоящее время я хочу классифицировать, подпадают ли некоторые слова под категорию или нет.. Позвольте мне быть более конкретным. При вводе некоторых слов мне нужно проверить, подпадают ли эти слова под язык, извест…
0 ответов

Нейтральная метка для НЛТК

У меня похожая проблема, как показано ниже Почему классификатор NLTK NaiveBayes неправильно классифицировал одну запись? В моем случае я запросил положительный фид и построил positive_vocab, а затем запросил отрицательный фид и построил негативный_v…
0 ответов

Зачем нам нужно тренировать PunktSentenceTokenizer? Как это тренируется в бэкэнде?

Зачем нам нужно тренировать PunktSentenceTokenizer? Как это тренируется в бэкэнде? Какова логика обучения и чем он отличается от базового токенизатора в NLTK?
25 июл '18 в 07:09
1 ответ

Python 2.x - Как получить результат наивной байесовской классификации NLTK с помощью trainSet и testSet

Я создаю анализатор текста, чтобы определить типы преступлений, которые содержат тексты. Мой класс был построен для загрузки текстов 2 CSV-файлов (один файл для обучения и один файл для тестирования). То, как это было построено, методы в моем классе…
10 апр '17 в 13:55
1 ответ

Визуализация Python NLTK

В настоящее время я занимаюсь обработкой естественного языка с использованием Python NLTK. Я хочу сгенерировать красивую графику представления ввода. Какой пакет я могу сделать, чтобы получить что-то подобное?
24 фев '17 в 00:15
0 ответов

Как удалить nltk из python и из моей системы, а также из командной строки

Я попытался загрузить nltk с помощью команды на команду python. Promt Import nltk nltk.download() // после этого он начал скачивать Теперь я хочу удалить все файлы nltk из моей системы, пожалуйста, помогите удалить и удалить все файлы nltk.
27 янв '17 в 14:24
1 ответ

Как интегрировать скрипт анализа настроений с чатботом для анализа ответа пользователя на том же экране консоли?

Я хочу создать чат-бота, который использует скрипт анализатора Sentiment для того, чтобы узнать настроение ответа пользователя, для которого я завершил создание Chatbot. Теперь единственное, что я хочу сделать, - это использовать этот скрипт для ана…
1 ответ

Как последовательно использовать разные чанкеры в НЛТК?

Я использую "Обработка текста Python 3 с NLTK3 Cookbook" для анализа текста. Я создал 2 чанкера "LocationChunker" и "PersonChunker", и они работают хорошо. Я смотрел везде, но как вы можете использовать их обоих одновременно, чтобы проанализировать …
09 апр '16 в 14:40
1 ответ

NLTK Наивный Байесовский классификатор Вопросы обучения

Я пытаюсь обучить классификатор для твитов. Однако проблема в том, что он говорит, что классификатор имеет 100% точность, а в списке наиболее информативных функций ничего не отображается. Кто-нибудь знает, что я делаю не так? Я считаю, что все мои д…
1 ответ

Можно ли обучить NLTK обнаруживать "выдуманные" имена в предложении?

Я недавно начал смотреть на извлечение данных с использованием NLTK. Хотя есть несколько примеров и методов обнаружения "настоящих" имен, местоположений и т. Д. Я не нашел эффективного способа обнаружения "выдуманных" или "мнимых" имен. Пример строк…
27 апр '17 в 00:09
1 ответ

Нлтк pos_tag ошибка в windows анаконда

Хотя я хочу собирать POS-теги с помощью функции pos_tag, возникает следующая ошибка. Я включил все пакеты, необходимые для nltk. Версия nltk 3.3 и работает в среде conda. версия Python 3.6. все пакеты nltk загружаются с использованием функции загруз…
08 июн '18 в 12:31
1 ответ

Какое предпочтительное соотношение между размером словаря и размером вложения?

При использовании, например, gensim, word2vec или аналогичного метода для обучения ваших векторов встраивания, мне было интересно, каково хорошее соотношение или есть предпочтительное соотношение между размером встраивания и размером словаря? Кроме …
1 ответ

Получение строки в plaintext.split('\n'): UnicodeDecodeError: кодек "ascii" не может декодировать байт 0x96 в позиции 2: порядковый номер не в диапазоне (128)

Я собираюсь спроектировать сентиментальный анализ данных в твиттере, используя учебники nltk, но не могу запустить следующий код import pickle import random import nltk from nltk import pos_tag from nltk.classify import ClassifierI from nltk.classif…
28 сен '16 в 11:30
0 ответов

NLTK PunktSentenceTokenizer - Как разделить нумерованные списки?

Я пытаюсь разобрать предложения из многих документов, используя NLTK. Все работает по большей части, но я хотел бы иметь возможность более точно разделить нумерованные списки. Это пример того, что я получаю: Transfer of personal data 3. Personal Dat…
28 сен '18 в 00:57
2 ответа

Поиск подходящих слов с помощью нграмм

Dataset: df['bigram'] = df['Clean_Data'].apply(lambda row: list(ngrams(word_tokenize(row), 2))) df[:,0:1] Id bigram 1952043 [(Swimming,Pool),(Pool,in),(in,the),(the,roof),(roof,top), 1918916 [(Luxury,Apartments),(Apartments,consisting),(consisting,1…
27 авг '17 в 06:05
2 ответа

Как добавить метку ко всем словам в файле?

У меня есть файл, содержащий слова, я хочу прочитать этот файл и добавить метку перед всеми словами. Метка должна быть добавлена ​​справа от слов. например. book - "O", Berlin - "O", Как это сделать в Python? Я пробовал этот код, но не дал свой отве…