Как я могу получить доступ к коричневому корпусу на Java (он же за пределами NLTK)
Я пытаюсь написать программу, которая использует естественную часть речи на Java. Я искал в Google и не нашел весь Коричневый корпус (или другой корпус с тегами). Я продолжаю находить информацию NLTK, которая мне не интересна. Я хочу иметь возможность загружать данные в Java-программу и суммировать вхождения слов (и какова вероятность того, что они будут частью речи).
Я не хочу использовать библиотеку Java, как в Стэнфорде, я хочу поиграть с данными корпуса.
3 ответа
Вот ссылка на страницу загрузки для Brown Corpus: http://www.nltk.org/nltk_data/
Все файлы являются почтовыми файлами. Формат данных описан в Википедии Brown Corpus. Я не знаю, что еще сказать. Оттуда все должно быть очевидно.
РЕДАКТИРОВАТЬ: если вы хотите оригинальные исходные данные, я думаю, что есть некоторые корпуса, которые имеют свои данные. Однако обычно смысл состоит в том, чтобы позволить кому-то другому делать выборку. Также обратите внимание на это из записи в Википедии: "Каждый образец начинался со случайной границы предложения в выбранной статье или другой единице и продолжался до границы первого предложения после 2000 слов". Таким образом, данные по "коричневому корпусу" в основном рандомизированы. Даже если у вас были оригинальные тексты, вы не сможете угадать, где они были взяты.
Данные есть данные. Данные NLTK не представлены в неясном, зашифрованном или сложном формате. Просто напишите код Java, чтобы прочитать его. Вы можете найти ярлык в WEKA или нет.
Если вы не хотите связываться с интерфейсом NLTK: Корпус Брауна хранится в Интернет-архиве (archive.org). На https://archive.org/details/BrownCorpus вы найдете ссылку на zip-архив, содержащий весь корпус. (Также торрент-ссылка, но для 3,2 МБ она не стоит проблем.)