Вопрос о создании языковой модели для сингальского УСРИЛ
Я пытаюсь создать систему распознавания голоса сингала, используя Pocketsphinx. Я использую инструмент SRILM для создания языковой модели. Мои исходные файлы для создания модели языка здесь. Я использую Cygwin на Windows 8.1 для запуска SRILM 1.7.1. Но как только я запускаю команду
ngram-count -vocab sinhalalexicon.txt -text sinhalacorpus.Train -order 3 -write sinhala.count -unk
я собираюсь
iconv: Invalid or incomplete multibyte or wide character
iconv: Invalid or incomplete multibyte or wide character
Что я тут не так сделал? Файл sinhalacorpus.Train был создан вручную с помощью Notepad++
1 ответ
Я нашел решение своей проблемы. как только я преобразовал файлы корпусов и лексиконов в формат Unix и изменил кодировку на UTF-8 без спецификации, это сработало. Я использовал Notepad++, чтобы сделать изменения.