Корейский, тайский и индонезийский POS-тегер
Кто-то может порекомендовать POS-тег с открытым исходным кодом для корейского, индонезийского, тайского и вьетнамского языков?
Это я могу использовать, чтобы пометить данные корпуса, которые у меня есть в настоящее время. (например, Стэнфорд-Постаггер)
Если вы являетесь разработчиком и хотите поделиться им и позвольте мне протестировать POS-тегер, я тоже не против.
С некоторыми модификациями вывода я пометил вьетнамские данные с помощью jvntextpro
Но я бы хотел больше узнать о POS-тегах в Корее, Индонезии и Таиланде.
2 ответа
После acl wiki: корейский морфологический анализатор и часть речи
Я бы начал просматривать сайты исследовательских отделов НЛП в Корее, Таиланде и Корее. На этой странице вы найдете ссылки на исследовательские отделы.
Удачи!
ОБНОВЛЕНИЕ: OpenNLP имеет тайский PoS. Вот модели: http://opennlp.sourceforge.net/models/thai/ для PoS opennlp tagger.
Возможно, вы захотите попробовать RDRPOSTagger: надежный, простой в использовании и независимый от языка инструментарий для POS и морфологических тегов.
(Язык программирования: Python & Java)
RDRPOSTagger обеспечивает высокую производительность как в процессе обучения, так и в процессе тегирования. Кроме того, RDRPOSTagger достигает очень конкурентоспособной точности по сравнению с современными результатами. Посмотрите экспериментальные результаты, включая скорость работы и точность маркировки в этой статье.
RDRPOSTagger теперь поддерживает предварительно обученные модели POS и морфологических тегов для 13 языков, включая тайский и вьетнамский.