Описание тега nlp
Обработка естественного языка (NLP) - это подполе искусственного интеллекта, которое включает в себя преобразование или извлечение полезной информации из данных на естественном языке. Методы включают машинное обучение и подходы на основе правил.
1
ответ
python2.7: Почему печать списка китайских языков выглядит как [u'\u4ed6', u'\u6765\u5230', u'\u4e86', u'\u7f51\u6613']?
Я использовал китайский словарь Jieba для сегментации слов.Когда я печатаю список слов, результат следующий: #!/usr/bin/env python # -*- coding: utf-8 -*- import jieba import sys import jieba s1 = "他来到了网易杭研大厦!" seg_list = jieba.cut(s1) lst1 = ", ".j…
27 сен '17 в 07:59
2
ответа
Больше вопросов по установке пакета Rstem
Этот вопрос связан с проблемами при установке пакета Rstem, но я думаю, что ответ, предоставленный в предыдущем, не работает для моего случая. Я скачал исходный пакет, и установка не работает правильно. Любая помощь приветствуется! install.packages(…
04 май '13 в 01:21
1
ответ
Почему Stanford Topic Modeling Toolbox не создает каталог lda-output?
Я попытался запустить этот код из github (после 1-2-3 шагов), который определяет 30 тем в 14 500 электронных письмах Сары Пэйлин. Открытые автором темы находятся здесь. Тем не менее, Stanford Topic Modeling Toolbox не производит каталог lda-output д…
18 апр '12 в 19:59
1
ответ
Извлечение слов с помощью NLTK
С веб-сайта http://nltk.googlecode.com/svn/trunk/doc/book/ch05.html я узнал о том, как разделять слова с тегами из корпуса с тегами. Код на сайте: >>> sent = ''' ... The/AT grand/JJ jury/NN commented/VBD on/IN a/AT number/NN of/IN ... other…
05 фев '12 в 11:00
4
ответа
Получить только слово перед специальным символом
У меня есть файл с "кусками" предложений из медицинского сектора. Предложения выглядят так: "[Снова ADVP /RB ] [VP видно /VBN ] [NP is/VBZ ] [NP a/DT focal/JJ асимметрия / NN]. "[NP диагностика / JJ маммография /NN ] [PP of/IN ] [NP the/DT левая / J…
11 май '12 в 11:38
4
ответа
Как сохранить модели выравнивания Python NLTK для последующего использования?
В Python я использую NLTK's alignment module создавать выравнивания слов между параллельными текстами. Выравнивание кусков может быть трудоемким процессом, особенно когда выполняется над значительными корпусами. Было бы неплохо сделать выравнивания …
12 май '15 в 15:25
3
ответа
Как генерировать би / триграммы, используя spacy/nltk
Вводимый текст всегда представляет собой список названий блюд, где есть от 1 до 3 прилагательных и существительное входные thai iced tea spicy fried chicken sweet chili pork thai chicken curry выходы: thai tea, iced tea spicy chicken, fried chicken …
31 авг '16 в 05:53
2
ответа
Не английское вложение слова из английского вложения слова
Как я могу генерировать неанглийское (французское, испанское, итальянское) вложение слов из вложения английских слов? Каковы наилучшие способы создания высококачественного встраивания слов для неанглийских слов. Слова могут включать (samsung-galaxy-…
19 сен '18 в 09:34
2
ответа
НЛП: извлечение названий форм и размеров форм
Я начинающий НЛП. Я работаю над задачей, где мне нужно обработать текст для рисования фигур. Я провел некоторое исследование и обнаружил, что tokensregex может быть подходящим вариантом. Например Текст: Не могли бы вы нарисовать равнобедренный треуг…
26 ноя '18 в 05:36
1
ответ
Точность и отзыв в fastText?
Я использую fastText для классификации текста, ссылка https://github.com/facebookresearch/fastText/blob/master/tutorials/supervised-learning.md Мне было интересно, что означает точность @1 или P@5? Я сделал бинарную классификацию, но я проверил друг…
09 сен '17 в 10:54
2
ответа
Python панды, извлекающие слова из дефисов из клеток с фразами
У меня есть датафрейм, который содержит фразы, и я хочу извлечь из него только составные слова, разделенные дефисом, и поместить их в другой фрейм данных. df=pd.DataFrame({'Phrases': ['Trail 1 Yellow-Green','Kim Jong-il was here', 'President Barack …
17 апр '14 в 11:44
2
ответа
Python: сопоставление POS-тегов NLTK Stanford с POS-тегами WordNet
Я читаю список предложений и помечаю каждое слово тегом Stanford POS от NLTK. Я получаю вывод, как так: wordnet_sense = [] for o in output: a = st.tag(o) wordnet_sense.append(a) выходы: [[(u'feel', u'VB'), (u'great', u'JJ')], [(u'good', u'JJ')]] Я х…
17 фев '16 в 14:06
2
ответа
НЛП Библиотека в Яве
Возможный дубликат: Java: есть ли хорошая библиотека для обработки естественного языка Мне нужна простая библиотека обработки естественного языка, написанная на Java, которая может быть использована для обработки поискового запроса / вопроса. На сам…
10 янв '11 в 07:38
0
ответов
Обработка многостолбцовых макетов с помощью модуля pdfminer pdf2txt.py
Пока я успешно использую модуль pdfminer pdf2txt.py. Но проблема возникает в PDF-файлах, отформатированных в двух столбцах. Модуль извлекает текст в один столбец, который приводит к множеству разделенных слов в конце строк. пример: и функциональные …
27 май '13 в 14:52
1
ответ
Интеграция ChatScript с приложением Python
Как интегрировать ChatScript [язык сценариев] с моим интерфейсом python?
17 ноя '15 в 23:36
1
ответ
Python sklearn.linear_model: LinearRegression() ValueError произошел, когда.predict()
Моя тренировочная матрица X имеет форму (5182, 19231), а у - список из 1 и 0 с длиной 5182. Моя тестовая матрица имеет форму (496, 5477). Я сохранил их в отдельных файлах рассола. Вот мой код: def read(pklFile1): f=open(pklFile1, 'rb') Y = cPickle.l…
25 май '16 в 19:33
1
ответ
Параметры для расчета точности части речевого тегера
Я новичок в обработке естественного языка, и у меня есть этот базовый вопрос о расчете точности POS Tagger (тегер использует корпус): (Не путайте слово "набор" ниже с математическим определением набора. Я просто использую его как обычное английское …
03 авг '14 в 00:29
0
ответов
Как реализовать НЛП в Xamarin Android? Я не могу найти какой-либо SDK и соответствующую документацию?
Я хочу реализовать в Android Xamarin тип "Хорошо, Google", но я не могу найти ни SDK, ни библиотеку для реализации этого. Я хочу создать приложение, которое принимает мою голосовую команду и переходит на другой экран, и оно начинает слушать только п…
13 июл '18 в 08:16
0
ответов
Р: Спящие? Как бороться с ошибками при извлечении с использованием больших циклов?
Я был бы так благодарен за любой совет - даже источник, чтобы исследовать себя. Я - количественный исследователь социальных наук, и мои навыки программирования быстро улучшаются, но я все еще новичок. Мой вопрос о шпалах? или любая стратегия, чтобы …
22 янв '18 в 10:50
1
ответ
Понимание LDA Преобразованный Корпус в Gensim
Я попытался исследовать содержимое корпуса BOW и LDA[BOW Corpus] (преобразованный моделью LDA, обученной на этом корпусе, скажем, с 35 темами), и обнаружил следующий вывод: DOC 1 : [(1522, 1), (2028, 1), (2082, 1), (6202, 1)] LDA 1 : [(29, 0.8057142…
07 май '14 в 05:48