Описание тега text-chunking

Вопросы с тегом

1 ответ

Как использовать шаблон регулярных выражений nltk для извлечения определенного фрагмента фразы?

Я написал следующее регулярное выражение, чтобы пометить определенный шаблон фраз pattern = """ P2: {<JJ>+ <RB>? <JJ>* <NN>+ <VB>* <JJ>*} P1: {<JJ>? <NN>+ <CC>? <NN>* <VB>? <RB>…

04 дек '15 в 14:37

0 ответов

Используйте Completion Suggester для сопоставления со всеми ngram в запросе

Я хотел бы знать, возможно ли использовать Elasticsearch Completion Suggester для сопоставления со всеми ngram в запросе. То, что я в основном хочу сделать, это "неправильно использовать" Completion Suggester, чтобы сделать "Словарь на основе чанкин…

elasticsearch nlp named-entity-recognition text-chunking

13 ноя '15 в 14:41

1 ответ

Разобрать вывод дерева NLTK в списке именных

У меня есть предложение text = '''If you're in construction or need to pass fire inspection, or just want fire resistant materials for peace of mind, this is the one to use. Check out 3rd party sellers as well Skylite''' Я применил к нему NLTK-блок …

python nltk text-chunking

21 фев '18 в 03:53

4 ответа

Python (NLTK) - более эффективный способ извлечь существительные фразы?

У меня есть задача машинного обучения с большим количеством текстовых данных. Я хочу идентифицировать и извлечь существительные фразы в обучающем тексте, чтобы я мог использовать их для конструирования функций позже в конвейере. Я выделил тип сущест…

python-3.x pandas nlp nltk text-chunking

29 мар '18 в 20:04

0 ответов

OpenNLP Chunker Тренер Оценщик

Я использовал тренировочный набор, подобный указанному в документации Opennlp https://opennlp.apache.org/documentation/1.5.2-incubating/manual/opennlp.html тренировать мой бункер Chunker. Однако, когда я использую ChunkerEvaluator для перекрестной п…

java opennlp text-chunking

30 авг '16 в 10:14

1 ответ

NLTK RegEx Chunker не захватывает определенные грамматические шаблоны с подстановочными знаками

Я пытаюсь разделить предложение, используя теги POS NLTK в качестве регулярных выражений. 2 правила определены для определения фраз, основываясь на тегах слов в предложении. В основном, я хотел захватить кусок одного или нескольких глаголов, за кото…

python regex nlp nltk text-chunking

18 дек '15 в 09:07

1 ответ

NLTK Regex Chunker не обрабатывает несколько правил грамматики в одной команде

Я пытаюсь извлечь фразы из моего корпуса, для этого я определил два правила: одно существительное, за которым следуют несколько существительных, а другое прилагательное, за которым следует существительное, здесь я хочу, чтобы, если одна и та же фраз…

python python-3.x regex nltk text-chunking

10 янв '18 в 11:30

1 ответ

itextsharp: слова разбиваются при разбиении textchunk на слова

Я хочу выделить несколько ключевых слов в наборе файлов PDF. Во-первых, мы должны определить отдельные слова и сопоставить их с моими ключевыми словами. Я нашел пример: class MyLocationTextExtractionStrategy : LocationTextExtractionStrategy { //Hold…

itextsharp words text-chunking

16 дек '15 в 17:30

1 ответ

Как извлечь специальные символы, используя NLTK RegexpParser Chunk для POS_tagged слов в Python

У меня есть текст, например, сказать: 80% of $300,000 Each Human Resource/IT Department. Мне нужно было бы извлечь $300,000 вместе со словами Each Human Resource/IT Department Я использовал pos-теги, чтобы пометить слова после токенизации. Я смог из…

python nlp nltk pos-tagging text-chunking

06 июл '16 в 14:41

0 ответов

Куски документов для проверки на плагиат

Я строю проверку плагиата для текстовых файлов. Я сделал все, что нужно для предварительной обработки (удаление стоп-слов, прохождение текста и т. Д.) И построил свой индекс. и отфильтрованные результаты. система почти готова. Я разбил на части корп…

similarity plagiarism-detection text-chunking

26 ноя '15 в 14:28

1 ответ

NLTK: как получить доступ к фрагменту строки

Я использую NLTK, и я хочу захватить строку, которая соответствовала моему правилу. Например Вот мой вклад The stocks show 67% rise, last year it was 12% fall я хочу захватить 67% rise а также 12% fall POS Пометка приведенного выше предложения показ…

python nlp nltk text-chunking

13 фев '17 в 14:32

2 ответа

Не условие в NLTK Regex Parser

Мне нужно создать условие not как часть моей грамматики в анализаторе регулярных выражений NLTK. Я хотел бы разбить те слова, которые имеют структуру 'Coffee & Tea' но это не должно быть, если есть слово типа <IN> до последовательности. На…

parsing nlp nltk text-chunking

11 мар '17 в 04:14

1 ответ

Кусок толстой кишки в НЛТК

Я пытаюсь разбить кусок на позицию двоеточия: в NLTK, но, похоже, это особый случай. В обычном регулярном выражении я могу просто положить его в [:] Нет проблем. Но в NLTK, что бы я ни делал, это не нравится в regexParser. from nltk import RegexpPar…

regex nltk text-chunking

15 окт '16 в 12:28

2 ответа

Условное разбиение текстового файла на Python

Надеюсь, это довольно простой вопрос. У меня есть стенограмма, которую я пытаюсь разбить на куски каждого оратора. Код, который у меня сейчас есть, есть; text = ''' Speaker 1: hello there this is some text. Speaker 2: hello there, this is also some …

python text-processing transcription text-chunking

03 авг '18 в 15:19

0 ответов

Python - Преобразование распознавания именованных объектов с помощью тегов BILOU?

Я пытаюсь преобразовать NER с тегами BILOU, но есть немного документации о тегах BILOU, кроме того, что я нашел здесь. Я даже не могу найти реализацию в кодировании, кроме как в SpaCy, но только для английского языка. На этом сайте есть реализация к…

python text-mining named-entity-recognition tagging text-chunking

07 июл '18 в 11:00

0 ответов

Разделение длинного текста на более мелкие образцы с помощью Python

Я пробовал пример кода в https://de.dariah.eu/tatom/preprocessing.html чтобы разделить 58 текстовых файлов на отдельные фрагментированные текстовые файлы с n номерами. Код выглядит следующим образом. Но в конце я получаю один.txt0001 в выходной ката…

python python-3.x text-chunking

28 фев '18 в 12:42

1 ответ

TreeTagger не может найти Charsetname при использовании в Uima Pipeline

Я хотел бы использовать TreeTagger для фрагментирования внутри конвейера uima для немецкого текста. Блок работает нормально, когда я запускаю Tagger с помощью cmd, но вызывает следующую ошибку при использовании в конвейере: org.apache.uima.analysis_…

uima treetagger text-chunking

19 июл '18 в 14:37

0 ответов

OpenNLP как создать модель для парсера-чанкинга

Я пытаюсь создать синтаксический анализатор на португальском языке с OpenNLP. Но у меня нет успеха. Я думаю, что для создания модели необходимо два файла: Один обучающий файл с расширением train.all и форматом: (TOP (S (NP-SBJ (DT Some) )(VP (VBP sa…

java parsing opennlp text-chunking

04 авг '16 в 03:00

3 ответа

Как извлечь куски из кусочков BIO? - питон

Дайте входное предложение с тегами BIO: [("Что", "B-NP"), ("есть", "B-VP"), ("the", "B-NP"), ("воздушная скорость", "I-NP"), ('of', 'B-PP'), ('an', 'B-NP'), ('unladen', 'I-NP'), ('ласточка', 'I-NP'), ('?', 'O')] Мне нужно будет извлечь соответствующ…

python list nlp text-parsing text-chunking

01 сен '15 в 13:45

1 ответ

Как использовать метод обновления класса Message Digest

Я работаю над проектом шифрования данных и просто хотел спросить, как использовать метод update класса дайджеста сообщения. В фрагменте кода реализации MD5 это было написано. import java.security.MessageDigest; import java.util.*; class MD5{ public …

java md5 chunking message-digest text-chunking

13 дек '17 в 14:46