Как оценка языковой модели работает с неизвестными словами?

Таким образом, для построения языковых моделей менее часто встречающиеся слова, превышающие размер словаря, заменяются на "UNK".

У меня вопрос, как оценить такие языковые модели, которые оценивают вероятности на основе "UNK"? Скажем, мы хотим оценить недоумение такой языковой модели на тестовом наборе, для слов, неизвестных модели, вероятность, которую мы получаем, оценивается на основе "мешка" неизвестных слов.

Это кажется проблематичным, потому что если мы установим размер словаря равным 1, то есть все слова неизвестны, то недоумение этой языковой модели "ничего не поделаешь" будет равно 1.

1 ответ

Этот файл очень хорошо объясняет вопрос:

https://web.stanford.edu/~jurafsky/slp3/4.pdf

короче говоря, недоумение следует сравнивать только между языковыми моделями с одним и тем же словарем.

Другие вопросы по тегам