Обучение скрытых марковских моделей без помеченных данных корпуса

Question

Обучение скрытых марковских моделей без помеченных данных корпуса

Для курса лингвистики мы реализовали тегирование части речи (POS), используя скрытую марковскую модель, где скрытые переменные были частями речи. Мы обучили систему некоторым помеченным данным, а затем протестировали ее и сравнили наши результаты с золотыми данными.

Было бы возможно обучить HMM без маркированного обучающего набора?

4

machine-learning nlp artificial-intelligence linguistics markov-models

Источник

user15055 16 дек '09 в 19:01

2 ответа

Решение

НЛП была пару лет назад, но я считаю, что без пометки HMM мог бы помочь определить вероятности выброса символа / перехода состояния для n-грамм (то есть каковы шансы "мира", возникающего после "привет"), но не частями -speech. Для того, чтобы узнать, как POS взаимосвязаны, нужен помеченный корпус.

Если я далеко от этого, дайте мне знать в комментариях!

1

Источник

user190938 16 дек '09 в 19:28

Другие вопросы по тегам machine-learning nlp artificial-intelligence linguistics markov-models

user92743 18 дек '09 в 00:46 2009-12-18 00:46 · Accepted Answer · 2009-12-18 00:46

Теоретически вы можете сделать это. В этом случае вы бы использовали алгоритм Баума-Уэлча. Это очень хорошо описано в учебнике Рабинера HMM.

Однако, применив НММ к части речи, ошибка, которую вы получите со стандартной формой, не будет столь удовлетворительной. Это форма максимизации ожидания, которая сходится только к локальным максимумам. Подходы, основанные на правилах, побеждают руки HMM, iirc.

Я полагаю, что инструментарий естественного языка NLTK для python имеет HMM-реализацию именно для этой цели.