Ngram модель и алгоритм сглаживания
Какой алгоритм сглаживания прост и эффективен с точки зрения реализации?
Мой тренировочный корпус выглядит как шестнадцатеричная свалка,
64 FA EB 63 31 D2 62 22 19 BD 64 B5 63 17 4F 48 62 A8 64 11 0F 62 15 9B 64 9B 1F E1 63 62 BE 63
Я хотел бы построить на нем модель языка 2,3,4,5 грамма. И в конце концов мне нужно сглаживание! Какой алгоритм сглаживания подойдет и будет легко реализовать в этом случае?
1 ответ
Сглаживание Лапласа (add-one) должно быть легко осуществимым. Когда дело доходит до надежности, большинство n-граммовых инструментов (KenLM, SRILM, ...) по умолчанию используют сглаживание по Кнезеру-Ней.
Для обзора эффективности различных методов сглаживания см. http://www.aclweb.org/anthology/P/P96/P96-1041.pdf