SRILM - Могу ли я создать словарь из файла поезда?

Я хочу сравнить различные языковые источники (каждый из них представляет собой большой файл.txt с данными, извлеченными из Интернета и нормализованными) по их сложности для прогнозирования тестового файла.

Для каждого источника я хочу построить языковую модель в SRILM. Однако, чтобы сравнивать честно, для каждого источника я хочу использовать лексикон схожего размера. Другими словами, я хочу использовать только первые 50000 наиболее распространенных слов для каждого источника, чтобы создать языковую модель этого источника.

Я знаю, что при построении языковой модели вы можете предоставить файл.vocab, чтобы ограничить свой словарный запас. Можно ли создать такой файл.vocab из файла.txt, указав пороговое значение для определенного количества слов в.vocab? Если да, то какие команды я могу использовать?

0 ответов

Другие вопросы по тегам