Вопрос о создании языковой модели для сингальского УСРИЛ

Я пытаюсь создать систему распознавания голоса сингала, используя Pocketsphinx. Я использую инструмент SRILM для создания языковой модели. Мои исходные файлы для создания модели языка здесь. Я использую Cygwin на Windows 8.1 для запуска SRILM 1.7.1. Но как только я запускаю команду

ngram-count -vocab sinhalalexicon.txt -text sinhalacorpus.Train -order 3     -write sinhala.count -unk

я собираюсь

iconv: Invalid or incomplete multibyte or wide character
iconv: Invalid or incomplete multibyte or wide character

Что я тут не так сделал? Файл sinhalacorpus.Train был создан вручную с помощью Notepad++

1 ответ

Я нашел решение своей проблемы. как только я преобразовал файлы корпусов и лексиконов в формат Unix и изменил кодировку на UTF-8 без спецификации, это сработало. Я использовал Notepad++, чтобы сделать изменения.

Другие вопросы по тегам