Описание тега tagged-corpus

1 ответ

Хранение и чтение дерева блоков NLTK в файле

У меня есть объект дерева NLTK, где существует 6 фрагментов NP. t1 = Tree('S', [('现在', 'T'), ('每', 'RZ'), ('次', 'QV'), ('打火', 'VN'), ('比较', 'D'), ('反感', 'V'), Tree('NP', [('悦动', 'NZ')]), Tree('NP', [('打火', 'VI'), ('时', 'TG'), ('比较', 'D'), ('嘈杂', 'A'…
27 мар '15 в 13:50
0 ответов

Распознавание именованных объектов NLTK с использованием корпуса Treebank

Я использую nltk для распознавания именованных сущностей. Функция ne_chunk по умолчанию использует ACE Corpus для разбиения на фрагменты и именованного объекта. chunked = ne_chunk (pos_tag (word_tokenize (text))) Я хотел бы знать, есть ли способ исп…
0 ответов

Как создать текстовые файлы с тегами корпус

У меня есть множество простых текстовых файлов (в формате.txt). Мне нужно использовать размеченный читатель корпуса и иметь категории для моего проекта, для этого: Сначала мне нужно, чтобы эти файлы были помечены POS для каждого слова. Есть ли какая…
02 ноя '16 в 18:33
3 ответа

Свободный Помеченный Корпус для Распознавания Именных Сущностей

Я ищу бесплатный помеченный корпус для системы, в которой можно обучаться для распознавания именованных сущностей. Большинство из них, которые я нахожу (например, из "Нью-Йорк Таймс"), дороги и не открыты. Кто-нибудь может помочь?
2 ответа

Как я могу получить доступ к необработанным документам из корпуса Брауна?

Для всех остальных корпусов НЛТК, звоните corpus.raw() возвращает исходный текст из файлов. Например: >>> from nltk.corpus import webtext >>> webtext.raw()[:10] 'Cookie Man' Однако при звонке brown.raw() Вы получаете помеченный тек…
15 ноя '17 в 06:55
1 ответ

Корпус с семантическими ролевыми тегами для приложения НЛП

Итак, я сконструировал программу NLP, которая учится извлекать описание семантического события из предложения, но сейчас мой тренировочный набор ограничен предложениями, которые я проанализировал в компонентах семантического события моей руки. Хотя …
02 авг '11 в 22:14
1 ответ

Создать почтовый корпус с NLTK

Я хочу построить почтовый корпус с NLTK. Так что я могу тренировать свою модель на ее основе. До сих пор я ссылался на множество источников, но каждый из них просто объяснял, как читать ваш помеченный корпус и читать слова, предложения и т. Д. Ниже …
26 сен '17 в 12:18
1 ответ

Как узнать время и дату или конкретное название продукта, используя NLTK?

doc = '''Andrew Yan-Tak Ng is a Chinese American computer scientist.He is the former chief scientist at Baidu, where he led the company's Artificial Intelligence Group. He is an adjunct professor (formerly associate professor) at Stanford University…
28 сен '18 в 03:58
1 ответ

Как создать категоризированный читатель корпуса с тегами

У меня есть куча файлов и категорий, перечисленных в cats.txt в той же папке. Я хочу создать CategorizedTaggedCorpusReader за это. Вот так выглядят мои файлы. Перепробовал много способов в nltk и не смог создать Категоризованный отмеченный corpusrea…
10 ноя '16 в 08:35
1 ответ

Соответствует байтам из аннотации в текстовый документ, Python или Java

Я использую свод мнений MPQA, в котором аннотации и документы сохраняются в отдельных файлах. Файлы аннотаций содержат смещения символов (байтов) в документахнапример, 850 861 string GATE_direct-subjective expression-intensity="medium" attitude-link…
16 июл '13 в 12:42
0 ответов

Standford CoreNLP для урду

Обеспечивает ли Stanford CoreNLP гибкость в обучении модели для разрешения конференций на языке урду? Другими словами, есть ли какой-нибудь код для обучения модели разрешения конференции на данных урду?
2 ответа

Арабский помечен Корпора

Пожалуйста, кто-нибудь знает бесплатную арабскую помеченную корпорацию, потому что я работаю над грамматикой и мне она нужна.Спасибо большое. Хани Альмусли.....
17 сен '09 в 12:40
0 ответов

Загрузка файлов в категоризированный текстовый корпус

Я использую Ubuntu и, как часть моего задания, я делаю анализ текстовых настроений. Я делаю учебный набор для классификации текста с использованием классификатора NaiveBayes, у меня есть много файлов, содержащих предложения и сохранены как sent1.txt…
18 фев '14 в 16:06
2 ответа

Ошибка при создании корпуса чтения модели из большого файла.txt

Я пытаюсь прочитать файл corpus.txt (обучающий набор) и создать модель, вывод должен называться lexic.txt и содержать слово, тег и число вхождений... для небольших обучающих наборов это работает, но для данного учебного комплекта университета (30-ме…
01 мар '15 в 00:56
1 ответ

Редактирование NLTK Corpus

В дополнение к корпусу, который поставляется с nltk, я хочу тренировать его с моим собственным корпусом, который следует той же части речевых правил. Как я могу найти корпус, который он использует, и как я могу добавить свой собственный корпус (кром…
11 мар '15 в 20:13
3 ответа

Как я могу получить доступ к коричневому корпусу на Java (он же за пределами NLTK)

Я пытаюсь написать программу, которая использует естественную часть речи на Java. Я искал в Google и не нашел весь Коричневый корпус (или другой корпус с тегами). Я продолжаю находить информацию NLTK, которая мне не интересна. Я хочу иметь возможнос…
06 июн '15 в 17:03
4 ответа

Найти все места / города / места в тексте

Если у меня есть текст, содержащий, например, статью газеты на каталонском языке, как я могу найти все города по этому тексту? Я искал пакет nltk для python, и я скачал корпус для каталонского языка (nltk.corpus.cess_cat). Что у меня есть на данный …
10 май '15 в 10:00
2 ответа

Сопоставить "байтовый интервал" с текстовым документом Python

Я работаю с аннотированным корпусом, который содержит два набора файлов.txt. Первый набор содержит аннотированные документы (например, статьи, посты в блогах и т. Д.), А второй набор содержит фактические аннотации. Способ сопоставления аннотации с а…
28 окт '11 в 20:21
1 ответ

Какова вероятность того, что "начать" будет дано?

Using an NLTK Conditional Frequency Distribution and the nltk.bigrams function, train a bigram model on the Genesis: text = nltk.corpus.genesis.words('english-kjv.txt') bigrams = nltk.bigrams(text) cfd = nltk.ConditionalFreqDist(bigrams) Answer the …
07 май '14 в 23:19
1 ответ

Makefile для БОЛЬШОГО количества файлов

Я никогда раньше не писал Makefiles, но подозреваю, что это будет полезно в моей ситуации. У меня есть набор текстовых файлов, которые мне нужно предварительно обработать, чтобы извлечь функции для машинного обучения. Структура каталогов может быть …
09 мар '16 в 23:58