Описание тега nltk
The Natural Language Toolkit - это библиотека Python для компьютерной лингвистики.
1
ответ
Переход с Python 2 на 3: нужно переустанавливать каталог NLTK?
При переходе с Python 2 на 3 я знаю, что мне нужно переустановить NLTK для Python 3, но нужно ли также переустанавливать массивный каталог? Я на Mac OS 10.12.5 и работаю с Python 2.7 в Sublime3. Сейчас я делаю переход на Python 3, иногда работаю в S…
29 июл '17 в 17:57
1
ответ
Хранение и чтение дерева блоков NLTK в файле
У меня есть объект дерева NLTK, где существует 6 фрагментов NP. t1 = Tree('S', [('现在', 'T'), ('每', 'RZ'), ('次', 'QV'), ('打火', 'VN'), ('比较', 'D'), ('反感', 'V'), Tree('NP', [('悦动', 'NZ')]), Tree('NP', [('打火', 'VI'), ('时', 'TG'), ('比较', 'D'), ('嘈杂', 'A'…
27 мар '15 в 13:50
1
ответ
Извлечение слов с помощью NLTK
С веб-сайта http://nltk.googlecode.com/svn/trunk/doc/book/ch05.html я узнал о том, как разделять слова с тегами из корпуса с тегами. Код на сайте: >>> sent = ''' ... The/AT grand/JJ jury/NN commented/VBD on/IN a/AT number/NN of/IN ... other…
05 фев '12 в 11:00
4
ответа
Как сохранить модели выравнивания Python NLTK для последующего использования?
В Python я использую NLTK's alignment module создавать выравнивания слов между параллельными текстами. Выравнивание кусков может быть трудоемким процессом, особенно когда выполняется над значительными корпусами. Было бы неплохо сделать выравнивания …
12 май '15 в 15:25
1
ответ
Отображение "TypeError: unhashable type: 'list'" при использовании его в функции nltk.FreqDist()
Я пытаюсь получить частотное распределение слова в фразе в соответствии с его степенью, используя nltk. Это показывает "TypeError: unhashable type: 'list'", хотя. Не понимаю, в чем проблема. Пожалуйста помоги. PS: в коде много ошибок, поэтому не обр…
10 дек '17 в 17:11
2
ответа
Индекс строки вне диапазона в тегах POS
Я делаю POS-теги, используя пакет nltk в Python. Теперь он показывает индекс строки ошибки вне диапазона, хотя моя строка не очень большая. import nltk sample_list = ['', 'emma', 'jane', 'austen', '1816', '', 'volume', 'chapter', 'emma', 'woodhouse'…
29 окт '18 в 13:38
3
ответа
Как генерировать би / триграммы, используя spacy/nltk
Вводимый текст всегда представляет собой список названий блюд, где есть от 1 до 3 прилагательных и существительное входные thai iced tea spicy fried chicken sweet chili pork thai chicken curry выходы: thai tea, iced tea spicy chicken, fried chicken …
31 авг '16 в 05:53
1
ответ
Python: лучший способ поиска и сбора текстовых строк из HTML. Удалите уценки, теги и т. Д.
Есть много модулей, таких как lxml, Beautiful soup, nltk и pyenchant для правильной фильтрации правильных английских слов. Но тогда какой самый чистый кратчайший путь, как предлагает html2text, также, если уценки также могут быть удалены (хотя я пиш…
05 июн '13 в 17:38
2
ответа
Python: сопоставление POS-тегов NLTK Stanford с POS-тегами WordNet
Я читаю список предложений и помечаю каждое слово тегом Stanford POS от NLTK. Я получаю вывод, как так: wordnet_sense = [] for o in output: a = st.tag(o) wordnet_sense.append(a) выходы: [[(u'feel', u'VB'), (u'great', u'JJ')], [(u'good', u'JJ')]] Я х…
17 фев '16 в 14:06
2
ответа
Python: возникают проблемы в сегментаторе предложений, токенайзере слов и теге части речи
Я пытаюсь прочитать текстовый файл в Python, а затем сделать предложение сегментирования, слово токенизатор и часть речи. Это мой код: file=open('C:/temp/1.txt','r') sentences = nltk.sent_tokenize(file) sentences = [nltk.word_tokenize(sent) for sent…
17 июн '14 в 21:31
1
ответ
Расщепление строки после пунктуации, включая пунктуацию
Я пытаюсь разбить строку слов в список слов с помощью регулярных выражений. Я все еще немного новичок с регулярными выражениями. Я использую nltk.regex_tokenize, который дает близкие результаты, но не совсем то, что я хочу. Это то, что я до сих пор:…
17 дек '11 в 06:29
0
ответов
Распознавание именованных объектов NLTK с использованием корпуса Treebank
Я использую nltk для распознавания именованных сущностей. Функция ne_chunk по умолчанию использует ACE Corpus для разбиения на фрагменты и именованного объекта. chunked = ne_chunk (pos_tag (word_tokenize (text))) Я хотел бы знать, есть ли способ исп…
07 сен '18 в 15:49
0
ответов
Распознавание именованных объектов на фрейме данных Python
Мой фрейм данных Python выглядит примерно так после удаления стоп-слов и токенизации issue_detail 0 [I, outdated, information, credit, report, I, ... 1 [This, company, refuses, provide, verification... 2 [Need, move, XXXX, facility, ., Can, longer, …
24 авг '18 в 00:11
1
ответ
Токенайзер предложений nltk дает AttributeError
Я очень новичок в Python и NLTK. Одна проблема сбивает меня с толку: Когда я делаю tokenized = custom_sent_tokenizer.tokenize("some long text") Это дает мне идеальный результат. Но когда я изменяю эту жестко закодированную строку на переменную, соде…
12 май '16 в 12:52
1
ответ
Как найти слово в XML-файле и распечатать его на Python
Я хочу найти определенное слово (которое вводится пользователем) в XML-файле. Это мой XML-файл. <?xml version="1.0" encoding="UTF-8"?> <words> <entry> <word>John</word> <pron>()</pron> <gram>[Noun]<…
20 окт '18 в 18:46
1
ответ
Создать набор существительных и глаголов из n различных описаний, перечислить описания, соответствующие существительному и глаголу
Я новичок в НЛП, у меня есть имя приложения столбцов и его описание. Данные выглядят такapp1, description1 (некоторая информация о app1, как это работает)приложение2, описание2,,приложение (n), описание (n)Из этих описаний мне нужно создать ограниче…
07 май '18 в 00:40
2
ответа
Используйте tkinter для рисования nltk внутри ноутбука jupyter
Я пытаюсь нарисовать график (встроенный) nltk Внутри jupyter-notebook, Но получил ошибку: TclError: no display name and no $DISPLAY environment variable Я пытался установить $DISPLAY на разные значения: $env DISPLAY=0.0 # or $env DISPLAY=inline # or…
03 июл '17 в 07:51
1
ответ
Определите слова, которые встречаются менее чем в 1% корпусных документов
У меня есть набор отзывов клиентов, и я хочу выделить редкие слова, которые для меня являются словами, которые встречаются менее чем в 1% корпусных документов. У меня уже есть рабочее решение, но оно слишком медленное для моего сценария: # Review da…
24 июн '18 в 15:44
2
ответа
Нахождение условной вероятности триграммы в питоне nltk
Я начал учиться NLTK отсюда я следую учебному пособию, где они находят условную вероятность, используя подобные биграммы. import nltk from nltk.corpus import brown cfreq_brown_2gram = nltk.ConditionalFreqDist(nltk.bigrams(brown.words())) Однако я хо…
28 июн '16 в 06:25
1
ответ
SpaCy: лица, пропавшие без вести
У меня есть некоторые проблемы с пропавшими без вести лицами. Ниже приведен пример, когда кажется, что SpaCy ослепнет, когда имени предшествуют определенные названия. Когда вы удаляете Labour MP (закомментированная строка) распознает имя, в противно…
28 мар '18 в 10:35