Объединить файл подсчета Ngrams в файлы ARPA
В настоящее время у меня есть различные файлы n-грамм, 2 грамма, 3 грамма и 4 грамма. Взяв файл 2 грамма в качестве примера
две граммы - частота
similar degree 32
Writing writes 1
towars their 3
country feature 1
like gold 446
like golf 64
Я хочу преобразовать все мои файлы n-грамм в один файл ARAP. Это языковая модель, которая используется в распознавании речи. Определение здесь, http://www1.icsi.berkeley.edu/Speech/docs/HTKBook3.2/node213_mn.html
Спасибо!
1 ответ
В srilm команда для преобразования отсчетов в arpa:
ngram-count -read file.counts -lm file.lm
При этом вам нужен только файл максимального количества заказов, 2 грамма не нужны, потому что подсчеты младшего разряда пересчитываются из подсчетов старшего разряда