Объединить файл подсчета Ngrams в файлы ARPA

В настоящее время у меня есть различные файлы n-грамм, 2 грамма, 3 грамма и 4 грамма. Взяв файл 2 грамма в качестве примера

две граммы - частота similar degree 32 Writing writes 1 towars their 3 country feature 1 like gold 446 like golf 64

Я хочу преобразовать все мои файлы n-грамм в один файл ARAP. Это языковая модель, которая используется в распознавании речи. Определение здесь, http://www1.icsi.berkeley.edu/Speech/docs/HTKBook3.2/node213_mn.html

Спасибо!

1 ответ

В srilm команда для преобразования отсчетов в arpa:

  ngram-count -read file.counts -lm file.lm

При этом вам нужен только файл максимального количества заказов, 2 грамма не нужны, потому что подсчеты младшего разряда пересчитываются из подсчетов старшего разряда

Другие вопросы по тегам