Ngram модель и алгоритм сглаживания

Question

Ngram модель и алгоритм сглаживания

Какой алгоритм сглаживания прост и эффективен с точки зрения реализации?

Мой тренировочный корпус выглядит как шестнадцатеричная свалка,

64 FA EB 63 31 D2 62 22 19 BD 64 B5 63 17 4F 48 62 A8 64 11 0F 62 15 9B 64 9B 1F E1 63 62 BE 63

Я хотел бы построить на нем модель языка 2,3,4,5 грамма. И в конце концов мне нужно сглаживание! Какой алгоритм сглаживания подойдет и будет легко реализовать в этом случае?

1

nlp n-gram

Источник

user4415392 03 июн '15 в 00:50

1 ответ

Другие вопросы по тегам nlp n-gram

user2950946 15 май '16 в 17:32 2016-05-15 17:32 · Answer 1 · 2016-05-15 17:32

Сглаживание Лапласа (add-one) должно быть легко осуществимым. Когда дело доходит до надежности, большинство n-граммовых инструментов (KenLM, SRILM, ...) по умолчанию используют сглаживание по Кнезеру-Ней.

Для обзора эффективности различных методов сглаживания см. http://www.aclweb.org/anthology/P/P96/P96-1041.pdf