Как я могу получить доступ к коричневому корпусу на Java (он же за пределами NLTK)

Question

Как я могу получить доступ к коричневому корпусу на Java (он же за пределами NLTK)

Я пытаюсь написать программу, которая использует естественную часть речи на Java. Я искал в Google и не нашел весь Коричневый корпус (или другой корпус с тегами). Я продолжаю находить информацию NLTK, которая мне не интересна. Я хочу иметь возможность загружать данные в Java-программу и суммировать вхождения слов (и какова вероятность того, что они будут частью речи).

Я не хочу использовать библиотеку Java, как в Стэнфорде, я хочу поиграть с данными корпуса.

4

java nlp nltk corpus tagged-corpus

Источник

user4855301 06 июн '15 в 17:03

3 ответа

Решение

Данные есть данные. Данные NLTK не представлены в неясном, зашифрованном или сложном формате. Просто напишите код Java, чтобы прочитать его. Вы можете найти ярлык в WEKA или нет.

4

Источник

user131433 06 июн '15 в 17:08

Если вы не хотите связываться с интерфейсом NLTK: Корпус Брауна хранится в Интернет-архиве (archive.org). На https://archive.org/details/BrownCorpus вы найдете ссылку на zip-архив, содержащий весь корпус. (Также торрент-ссылка, но для 3,2 МБ она не стоит проблем.)

2

Источник

user699305 13 июн '15 в 20:10

Другие вопросы по тегам java nlp nltk corpus tagged-corpus

user2338547 06 июн '15 в 17:18 2015-06-06 17:18 · Accepted Answer · 2015-06-06 17:18

Вот ссылка на страницу загрузки для Brown Corpus: http://www.nltk.org/nltk_data/

Все файлы являются почтовыми файлами. Формат данных описан в Википедии Brown Corpus. Я не знаю, что еще сказать. Оттуда все должно быть очевидно.

РЕДАКТИРОВАТЬ: если вы хотите оригинальные исходные данные, я думаю, что есть некоторые корпуса, которые имеют свои данные. Однако обычно смысл состоит в том, чтобы позволить кому-то другому делать выборку. Также обратите внимание на это из записи в Википедии: "Каждый образец начинался со случайной границы предложения в выбранной статье или другой единице и продолжался до границы первого предложения после 2000 слов". Таким образом, данные по "коричневому корпусу" в основном рандомизированы. Даже если у вас были оригинальные тексты, вы не сможете угадать, где они были взяты.