Обучение скрытых марковских моделей без помеченных данных корпуса
Для курса лингвистики мы реализовали тегирование части речи (POS), используя скрытую марковскую модель, где скрытые переменные были частями речи. Мы обучили систему некоторым помеченным данным, а затем протестировали ее и сравнили наши результаты с золотыми данными.
Было бы возможно обучить HMM без маркированного обучающего набора?
2 ответа
Теоретически вы можете сделать это. В этом случае вы бы использовали алгоритм Баума-Уэлча. Это очень хорошо описано в учебнике Рабинера HMM.
Однако, применив НММ к части речи, ошибка, которую вы получите со стандартной формой, не будет столь удовлетворительной. Это форма максимизации ожидания, которая сходится только к локальным максимумам. Подходы, основанные на правилах, побеждают руки HMM, iirc.
Я полагаю, что инструментарий естественного языка NLTK для python имеет HMM-реализацию именно для этой цели.
НЛП была пару лет назад, но я считаю, что без пометки HMM мог бы помочь определить вероятности выброса символа / перехода состояния для n-грамм (то есть каковы шансы "мира", возникающего после "привет"), но не частями -speech. Для того, чтобы узнать, как POS взаимосвязаны, нужен помеченный корпус.
Если я далеко от этого, дайте мне знать в комментариях!