Где найти переходные значения алгоритма Витерби для обработки естественного языка?

Я только что посмотрел видео, где они использовали алгоритм Витерби, чтобы определить, должны ли определенные слова в предложении быть существительными / глаголами / прилагательными и т. Д., Они использовали вероятности перехода и выброса, например, вероятность использования слова "время" в качестве известен глагол (эмиссия) и вероятность того, что существительное приведет к глаголу (переход).

http://www.youtube.com/watch?v=O_q82UMtjoM&feature=relmfu (видео)

Как найти хороший набор данных о переходах и вероятностях выбросов для этого варианта использования?

Или ДАЖЕ только один пример со всеми вероятностями, я хочу использовать реалистичные числа в демонстрации.

1 ответ

Решение

Обычно реализации скрытых марковских моделей (НММ) могут выполнять не только алгоритм Витерби для тегирования, но и алгоритм, используемый для обучения модели (например, алгоритм Баума-Уэлча). Тогда способ получения модели (то есть набора вероятностей перехода и эмиссии) состоит в том, чтобы запустить алгоритм обучения в подходящем корпусе обучения (таком как PennTreebank).

Мне неизвестно о какой-либо свободно доступной, готовой к внедрению реализации POS-тегера на основе HMM, которая поставляется с предварительно обученной моделью, которую можно легко проверить. Однако подход, который во многом похож на HMM, является условным случайным полем (CRF). CRFTagger, созданный в университете Тохоку, Япония, кажется, поставляется с предварительно подготовленной моделью для английского языка (см. Файл model/model.txt после скачивания и распаковки). Файл удобочитаем, но для понимания деталей формата вам, возможно, придется связаться с авторами.

Другие вопросы по тегам