Описание тега text-chunking

1 ответ

Как использовать шаблон регулярных выражений nltk для извлечения определенного фрагмента фразы?

Я написал следующее регулярное выражение, чтобы пометить определенный шаблон фраз pattern = """ P2: {<JJ>+ <RB>? <JJ>* <NN>+ <VB>* <JJ>*} P1: {<JJ>? <NN>+ <CC>? <NN>* <VB>? <RB>…
04 дек '15 в 14:37
0 ответов

Используйте Completion Suggester для сопоставления со всеми ngram в запросе

Я хотел бы знать, возможно ли использовать Elasticsearch Completion Suggester для сопоставления со всеми ngram в запросе. То, что я в основном хочу сделать, это "неправильно использовать" Completion Suggester, чтобы сделать "Словарь на основе чанкин…
1 ответ

Разобрать вывод дерева NLTK в списке именных

У меня есть предложение text = '''If you're in construction or need to pass fire inspection, or just want fire resistant materials for peace of mind, this is the one to use. Check out 3rd party sellers as well Skylite''' Я применил к нему NLTK-блок …
21 фев '18 в 03:53
4 ответа

Python (NLTK) - более эффективный способ извлечь существительные фразы?

У меня есть задача машинного обучения с большим количеством текстовых данных. Я хочу идентифицировать и извлечь существительные фразы в обучающем тексте, чтобы я мог использовать их для конструирования функций позже в конвейере. Я выделил тип сущест…
29 мар '18 в 20:04
0 ответов

OpenNLP Chunker Тренер Оценщик

Я использовал тренировочный набор, подобный указанному в документации Opennlp https://opennlp.apache.org/documentation/1.5.2-incubating/manual/opennlp.html тренировать мой бункер Chunker. Однако, когда я использую ChunkerEvaluator для перекрестной п…
30 авг '16 в 10:14
1 ответ

NLTK RegEx Chunker не захватывает определенные грамматические шаблоны с подстановочными знаками

Я пытаюсь разделить предложение, используя теги POS NLTK в качестве регулярных выражений. 2 правила определены для определения фраз, основываясь на тегах слов в предложении. В основном, я хотел захватить кусок одного или нескольких глаголов, за кото…
18 дек '15 в 09:07
1 ответ

NLTK Regex Chunker не обрабатывает несколько правил грамматики в одной команде

Я пытаюсь извлечь фразы из моего корпуса, для этого я определил два правила: одно существительное, за которым следуют несколько существительных, а другое прилагательное, за которым следует существительное, здесь я хочу, чтобы, если одна и та же фраз…
10 янв '18 в 11:30
1 ответ

itextsharp: слова разбиваются при разбиении textchunk на слова

Я хочу выделить несколько ключевых слов в наборе файлов PDF. Во-первых, мы должны определить отдельные слова и сопоставить их с моими ключевыми словами. Я нашел пример: class MyLocationTextExtractionStrategy : LocationTextExtractionStrategy { //Hold…
16 дек '15 в 17:30
1 ответ

Как извлечь специальные символы, используя NLTK RegexpParser Chunk для POS_tagged слов в Python

У меня есть текст, например, сказать: 80% of $300,000 Each Human Resource/IT Department. Мне нужно было бы извлечь $300,000 вместе со словами Each Human Resource/IT Department Я использовал pos-теги, чтобы пометить слова после токенизации. Я смог из…
06 июл '16 в 14:41
0 ответов

Куски документов для проверки на плагиат

Я строю проверку плагиата для текстовых файлов. Я сделал все, что нужно для предварительной обработки (удаление стоп-слов, прохождение текста и т. Д.) И построил свой индекс. и отфильтрованные результаты. система почти готова. Я разбил на части корп…
1 ответ

NLTK: как получить доступ к фрагменту строки

Я использую NLTK, и я хочу захватить строку, которая соответствовала моему правилу. Например Вот мой вклад The stocks show 67% rise, last year it was 12% fall я хочу захватить 67% rise а также 12% fall POS Пометка приведенного выше предложения показ…
13 фев '17 в 14:32
2 ответа

Не условие в NLTK Regex Parser

Мне нужно создать условие not как часть моей грамматики в анализаторе регулярных выражений NLTK. Я хотел бы разбить те слова, которые имеют структуру 'Coffee & Tea' но это не должно быть, если есть слово типа <IN> до последовательности. На…
11 мар '17 в 04:14
1 ответ

Кусок толстой кишки в НЛТК

Я пытаюсь разбить кусок на позицию двоеточия: в NLTK, но, похоже, это особый случай. В обычном регулярном выражении я могу просто положить его в [:] Нет проблем. Но в NLTK, что бы я ни делал, это не нравится в regexParser. from nltk import RegexpPar…
15 окт '16 в 12:28
2 ответа

Условное разбиение текстового файла на Python

Надеюсь, это довольно простой вопрос. У меня есть стенограмма, которую я пытаюсь разбить на куски каждого оратора. Код, который у меня сейчас есть, есть; text = ''' Speaker 1: hello there this is some text. Speaker 2: hello there, this is also some …
0 ответов

Python - Преобразование распознавания именованных объектов с помощью тегов BILOU?

Я пытаюсь преобразовать NER с тегами BILOU, но есть немного документации о тегах BILOU, кроме того, что я нашел здесь. Я даже не могу найти реализацию в кодировании, кроме как в SpaCy, но только для английского языка. На этом сайте есть реализация к…
0 ответов

Разделение длинного текста на более мелкие образцы с помощью Python

Я пробовал пример кода в https://de.dariah.eu/tatom/preprocessing.html чтобы разделить 58 текстовых файлов на отдельные фрагментированные текстовые файлы с n номерами. Код выглядит следующим образом. Но в конце я получаю один.txt0001 в выходной ката…
28 фев '18 в 12:42
1 ответ

TreeTagger не может найти Charsetname при использовании в Uima Pipeline

Я хотел бы использовать TreeTagger для фрагментирования внутри конвейера uima для немецкого текста. Блок работает нормально, когда я запускаю Tagger с помощью cmd, но вызывает следующую ошибку при использовании в конвейере: org.apache.uima.analysis_…
19 июл '18 в 14:37
0 ответов

OpenNLP как создать модель для парсера-чанкинга

Я пытаюсь создать синтаксический анализатор на португальском языке с OpenNLP. Но у меня нет успеха. Я думаю, что для создания модели необходимо два файла: Один обучающий файл с расширением train.all и форматом: (TOP (S (NP-SBJ (DT Some) )(VP (VBP sa…
04 авг '16 в 03:00
3 ответа

Как извлечь куски из кусочков BIO? - питон

Дайте входное предложение с тегами BIO: [("Что", "B-NP"), ("есть", "B-VP"), ("the", "B-NP"), ("воздушная скорость", "I-NP"), ('of', 'B-PP'), ('an', 'B-NP'), ('unladen', 'I-NP'), ('ласточка', 'I-NP'), ('?', 'O')] Мне нужно будет извлечь соответствующ…
01 сен '15 в 13:45
1 ответ

Как использовать метод обновления класса Message Digest

Я работаю над проектом шифрования данных и просто хотел спросить, как использовать метод update класса дайджеста сообщения. В фрагменте кода реализации MD5 это было написано. import java.security.MessageDigest; import java.util.*; class MD5{ public …
13 дек '17 в 14:46