Промышленная мощь Обработка естественного языка (NLP) с помощью Python и Cython
3 ответа

Как генерировать би / триграммы, используя spacy/nltk

Вводимый текст всегда представляет собой список названий блюд, где есть от 1 до 3 прилагательных и существительное входные thai iced tea spicy fried chicken sweet chili pork thai chicken curry выходы: thai tea, iced tea spicy chicken, fried chicken …
31 авг '16 в 05:53
2 ответа

Как разобрать глаголы, используя Spacy

Я пытаюсь разобрать глаголы в корпусе, перечислить их в словарях и посчитать, сколько раз каждый глагол появляется как переходный, непереходный и дитранзитивный. Мне было интересно, как я мог бы использовать spacy, чтобы разобрать глаголы и записать…
14 мар '18 в 07:17
0 ответов

Как сделать статистические модели Spacy быстрее

Я использую предварительно обученные статистические модели Spacy, такие как en_core_web_md. Я пытаюсь найти похожие слова между двумя списками. Пока код работает нормально. Загрузка статистической модели занимает много времени при каждом запуске код…
19 ноя '18 в 12:40
0 ответов

Обработка символа (пробел нулевой ширины) в предварительной обработке текста для задачи NLP

Я препроцессирую текст для модели NER, которую я тренирую, и довольно часто сталкиваюсь с этим персонажем. Этот персонаж не удаляется с strip(): >>> 'Hello world!\u200b'.strip() 'Hello world!\u200b' Это не считается пробелом для регулярных …
05 дек '17 в 08:46
1 ответ

SpaCy: лица, пропавшие без вести

У меня есть некоторые проблемы с пропавшими без вести лицами. Ниже приведен пример, когда кажется, что SpaCy ослепнет, когда имени предшествуют определенные названия. Когда вы удаляете Labour MP (закомментированная строка) распознает имя, в противно…
28 мар '18 в 10:35
0 ответов

Можно ли получить тег Date из неестественного предложения?

Я хочу получить информацию ДАТА из предложения.Он сочетается только с такими кодами, как "ST JOHN 100H -OPEN TEXAS APR 05/08" То, что мне нужно из предложения, это АПРЕЛЬ 05/08, который является датами. Я запустил свой код, но не повезло.. doc = nlp…
10 июл '18 в 05:07
1 ответ

Textacy не может создать корпус из класса textacy.doc.Doc

Я просто работаю, думал текстовые учебники с данными за пределами модуля наборов данных для работы. Я получаю некоторые текстовые данные из фрейма данных и храню их как строковую переменную для работы. def mergeText(df): content = '' for i in df['te…
11 дек '17 в 15:03
0 ответов

Как найти начальную и конечную позицию слова из заданной строки

import spacy, json, re nlp = spacy.load('en') string = u'People of India such as Narendra Modi and Abdul Kalam stand shoulder to shoulder for 3 hours with those affected due to natural disasters and the tragedy in Gorakhpur. Narendra Modi is PM of I…
29 сен '17 в 06:42
1 ответ

Обучение собственной модели и добавление новых сущностей с простором

Я пытался обучить модель тем же методом, который используется в #887, только для теста. У меня вопрос, какой формат тренировок лучше всего импортировать в пространстве. У меня есть текстовый файл со списком объектов, который требует новых объектов д…
11 апр '17 в 08:56
1 ответ

Анализатор зависимостей Python NLP из spacy библиотеки не работает

Когда я даю пространственному парсеру предложение: "Человек шел по улице", он говорит, что "был" - это корень, а ходьба - это xcompl, как и "ходьба" в предложении: "Человек любит идти вниз". улица". Что не так. Теперь этого не происходит при перемещ…
27 мар '17 в 12:32
1 ответ

Библиотека Spacy NLP: каков максимально разумный размер документа

Следующий вопрос касается библиотеки Spacy NLP для Python, но я был бы удивлен, если бы ответы для других библиотек существенно отличались. Каков максимальный размер документа, который Spacy может обрабатывать при разумных условиях памяти (например,…
08 янв '18 в 03:07
1 ответ

Пространство: неверная дата, указанная нер

Я использую просторную библиотеку, чтобы идентифицировать сущность из текста. Когда я передал текст объекту nlp, он неправильно идентифицирует дату. текст: встретимся 9 октября - 8 утра Выявлено -> 9 (как кардинал) 8 октября (дата) Обязательно -> 9 …
22 авг '18 в 04:18
1 ответ

Использование PhraseMatcher в SpaCy для поиска нескольких типов совпадений

Документация и примеры SpaCy показывают, что класс PhraseMatcher полезен для сопоставления последовательностей токенов в документах. Нужно предоставить словарь последовательностей, которые будут сопоставлены. В моем приложении у меня есть документы,…
04 дек '17 в 17:32
0 ответов

Как исправить неправильные метки зависимостей в spaCy?

spaCy часто не может правильно проанализировать предложение, если предложение имеет шаблон N-VBP-VBG. Например, я люблю читать. Я люблю готовить. Мне нравится писать и т. Д. Такие предложения часто получают неправильные ярлыки зависимостей. Я могу о…
09 фев '19 в 19:19
1 ответ

Определить строки, которые уже хэшированы в абзаце текста, используя Python

То, что я пытаюсь сделать, это по сути разделить URL-адрес и извлечь слова из URL-адреса, однако в большинстве случаев URL-адреса могут содержать строки, которые представляют собой буквенно-цифровые хеши или формы неразборчивого текста. Возьмите сле…
23 дек '17 в 22:43
1 ответ

Извлечение дат из текста с помощью spaCy в отношении определенной даты

Я хочу извлечь даты, указанные в текстовом виде, как 'next week' или же 'February' из новостной статьи, учитывая дату публикации статьи. Т.е. если статья была опубликована 13 февраля 2019 г. и 'next week' было упомянуто в этой статье, я хочу, чтобы …
22 фев '19 в 13:02
0 ответов

Python: pos-тег - со словом "назад"

Как отличить тег post от back в следующих предложениях: испытывает периодическую стреляющую боль в нижней части спины после столкновения где-то в затылке Примеры из простора doc = nlp(u'experiencing intermittent shooting pain in her lower back follo…
25 фев '19 в 16:27
1 ответ

Предложения сегментов с исключениями токенизатора spaCy изменились в v2?

После прочтения этого, который работает с Python 3.5, spaCy версии 1.1.2. Я пытался сделать это from spacy.lang.en import English nlp = spacy.load('en') text2 = u'he has a ph.D. in tacology' nlp.Defaults.tokenizer_exceptions['Ph.D.'] = [{'F':'Ph.D.'…
31 янв '18 в 17:26
0 ответов

Сохранение и загрузка Spacy NLP объектов Сохранение данных

У меня есть компонент Custom NER в Spacy 2.0, который я добавляю в канал NLP и сохраняю объект NLP с помощью метода to_disk(): nlp = spacy.load('en_core_web_sm') nlp.remove_pipe('ner') phone_matcher = CustomNERTagger(nlp,[u"Nokia 1100",u"Nokia 6",u"…
30 май '18 в 08:41
0 ответов

Запустите Spacy из SQL Server

Я уже настроил SQL Server, и он работает вместе с Python. Spacy уже скомпилирован и установлен. Сейчас я пытаюсь вызвать Spacy с помощью внешнего скрипта (см. Ниже). Я посылаю длинную текстовую строку 'NLPTEXT' и ожидаю таблицу со словами (столбец W…
13 янв '19 в 13:43