Правила грамматики CYK (Cocke-Younger-Kasami)
Я заинтересован в синтаксическом анализе естественного языка и написал Brill Part of Speech Tagger, и хотел бы улучшить его, объединив его с POS-тегом, основанным на грамматических правилах. Кто-нибудь знает где-нибудь файлы с открытым исходным кодом для английского языка? Мне особенно интересно все, что связано с алгоритмом CYK (Cocke-Younger-Kasami), особенно C#. Благодарю.
1 ответ
Вы проверили GATE?
Кажется, у них есть POS-тегер на основе Brill с лексиконами и правилами. Он реализован на Java, поэтому вы, вероятно, должны легко понять код. Он доступен в том же проекте на sourceforge. Вот их документация по POS-тэгерам.
Надеюсь это поможет.
Не по теме, лекции Майкла Коллинза о POS-тэгах и теории, стоящей за этим.