Описание тега nltk-trainer
3
ответа
Как добавить пользовательские корпуса на локальную машину в nltk
У меня есть пользовательские корпуса, которые созданы с данными, которые мне нужно сделать некоторую классификацию. У меня есть набор данных в том же формате, который содержится в корпусе movie_reviews. Согласно документации nltk я использую следующ…
11 фев '17 в 13:56
0
ответов
Выявление интереса / темы из текста
Я пытаюсь построить модель, которая будет пытаться идентифицировать интересующую категорию / тему предоставленного текста. Например: Магазин для свадебных сари свадьбы от нашего изнурительного разнообразия красивых и дизайнерских сари. Получите выго…
01 окт '16 в 12:55
0
ответов
feature_names.sort() TypeError: '<' не поддерживается между экземплярами 'str' и 'tuple'
Я пытаюсь классифицировать текст с помощью полиномиального классификатора с экстрактором функций Bigram. Коды следующие: from nltk.classify.scikitlearn import SklearnClassifier from sklearn.naive_bayes import MultinomialNB from nltk.tokenize import …
21 янв '18 в 10:03
0
ответов
Как справиться со словами, которые имеют пробел между символами?
Я использую nltk.word_tokenize на языке дари. Проблема в том, что у нас есть пробел между одним словом.Например слово "زنده گی" что означает жизнь. И то же самое; у нас есть много других слов. Все слова, заканчивающиеся символом "ه" мы должны дать м…
20 сен '17 в 09:29
1
ответ
Классификация слов с использованием алгоритма машинного обучения
Я новичок в машинном обучении. В настоящее время я хочу классифицировать, подпадают ли некоторые слова под категорию или нет.. Позвольте мне быть более конкретным. При вводе некоторых слов мне нужно проверить, подпадают ли эти слова под язык, извест…
24 сен '17 в 15:12
0
ответов
Нейтральная метка для НЛТК
У меня похожая проблема, как показано ниже Почему классификатор NLTK NaiveBayes неправильно классифицировал одну запись? В моем случае я запросил положительный фид и построил positive_vocab, а затем запросил отрицательный фид и построил негативный_v…
04 дек '18 в 05:48
0
ответов
Зачем нам нужно тренировать PunktSentenceTokenizer? Как это тренируется в бэкэнде?
Зачем нам нужно тренировать PunktSentenceTokenizer? Как это тренируется в бэкэнде? Какова логика обучения и чем он отличается от базового токенизатора в NLTK?
25 июл '18 в 07:09
1
ответ
Python 2.x - Как получить результат наивной байесовской классификации NLTK с помощью trainSet и testSet
Я создаю анализатор текста, чтобы определить типы преступлений, которые содержат тексты. Мой класс был построен для загрузки текстов 2 CSV-файлов (один файл для обучения и один файл для тестирования). То, как это было построено, методы в моем классе…
10 апр '17 в 13:55
1
ответ
Визуализация Python NLTK
В настоящее время я занимаюсь обработкой естественного языка с использованием Python NLTK. Я хочу сгенерировать красивую графику представления ввода. Какой пакет я могу сделать, чтобы получить что-то подобное?
24 фев '17 в 00:15
0
ответов
Как удалить nltk из python и из моей системы, а также из командной строки
Я попытался загрузить nltk с помощью команды на команду python. Promt Import nltk nltk.download() // после этого он начал скачивать Теперь я хочу удалить все файлы nltk из моей системы, пожалуйста, помогите удалить и удалить все файлы nltk.
27 янв '17 в 14:24
1
ответ
Как интегрировать скрипт анализа настроений с чатботом для анализа ответа пользователя на том же экране консоли?
Я хочу создать чат-бота, который использует скрипт анализатора Sentiment для того, чтобы узнать настроение ответа пользователя, для которого я завершил создание Chatbot. Теперь единственное, что я хочу сделать, - это использовать этот скрипт для ана…
04 июл '18 в 06:39
1
ответ
Как последовательно использовать разные чанкеры в НЛТК?
Я использую "Обработка текста Python 3 с NLTK3 Cookbook" для анализа текста. Я создал 2 чанкера "LocationChunker" и "PersonChunker", и они работают хорошо. Я смотрел везде, но как вы можете использовать их обоих одновременно, чтобы проанализировать …
09 апр '16 в 14:40
1
ответ
NLTK Наивный Байесовский классификатор Вопросы обучения
Я пытаюсь обучить классификатор для твитов. Однако проблема в том, что он говорит, что классификатор имеет 100% точность, а в списке наиболее информативных функций ничего не отображается. Кто-нибудь знает, что я делаю не так? Я считаю, что все мои д…
04 апр '17 в 20:00
1
ответ
Можно ли обучить NLTK обнаруживать "выдуманные" имена в предложении?
Я недавно начал смотреть на извлечение данных с использованием NLTK. Хотя есть несколько примеров и методов обнаружения "настоящих" имен, местоположений и т. Д. Я не нашел эффективного способа обнаружения "выдуманных" или "мнимых" имен. Пример строк…
27 апр '17 в 00:09
1
ответ
Нлтк pos_tag ошибка в windows анаконда
Хотя я хочу собирать POS-теги с помощью функции pos_tag, возникает следующая ошибка. Я включил все пакеты, необходимые для nltk. Версия nltk 3.3 и работает в среде conda. версия Python 3.6. все пакеты nltk загружаются с использованием функции загруз…
08 июн '18 в 12:31
1
ответ
Какое предпочтительное соотношение между размером словаря и размером вложения?
При использовании, например, gensim, word2vec или аналогичного метода для обучения ваших векторов встраивания, мне было интересно, каково хорошее соотношение или есть предпочтительное соотношение между размером встраивания и размером словаря? Кроме …
27 янв '18 в 19:50
1
ответ
Получение строки в plaintext.split('\n'): UnicodeDecodeError: кодек "ascii" не может декодировать байт 0x96 в позиции 2: порядковый номер не в диапазоне (128)
Я собираюсь спроектировать сентиментальный анализ данных в твиттере, используя учебники nltk, но не могу запустить следующий код import pickle import random import nltk from nltk import pos_tag from nltk.classify import ClassifierI from nltk.classif…
28 сен '16 в 11:30
0
ответов
NLTK PunktSentenceTokenizer - Как разделить нумерованные списки?
Я пытаюсь разобрать предложения из многих документов, используя NLTK. Все работает по большей части, но я хотел бы иметь возможность более точно разделить нумерованные списки. Это пример того, что я получаю: Transfer of personal data 3. Personal Dat…
28 сен '18 в 00:57
2
ответа
Поиск подходящих слов с помощью нграмм
Dataset: df['bigram'] = df['Clean_Data'].apply(lambda row: list(ngrams(word_tokenize(row), 2))) df[:,0:1] Id bigram 1952043 [(Swimming,Pool),(Pool,in),(in,the),(the,roof),(roof,top), 1918916 [(Luxury,Apartments),(Apartments,consisting),(consisting,1…
27 авг '17 в 06:05
2
ответа
Как добавить метку ко всем словам в файле?
У меня есть файл, содержащий слова, я хочу прочитать этот файл и добавить метку перед всеми словами. Метка должна быть добавлена справа от слов. например. book - "O", Berlin - "O", Как это сделать в Python? Я пробовал этот код, но не дал свой отве…
06 фев '18 в 13:47