GIZA++: запрещенная нулевая длина предложения 0

Я использовал GIZA++ для перевода предложения, когда я использовал в наборе тестовых данных сообщение об ошибке "ОШИБКА: запрещенная длина нулевого предложения 0". Есть ли способ избежать этой ошибки

1 ответ

Решение

У меня была такая же проблема с корпусом en-vi. (Английский-вьетнамский) Потому что ваши данные корпуса слишком длинные или не чистые.

Вы должны очистить ваши данные корпуса.

Это ограничит длину предложения до 80. Это команда с инструментами Моисея.

~/mosesdecoder/scripts/training/clean-corpus-n.perl 
~/corpus/train en vi 
~/corpus/train.clean 1 80

Или вы можете настроить вручную.

Попробуйте сократить длину каждой строки не более 100 символов или 80 слов.

Другие вопросы по тегам