GIZA++: запрещенная нулевая длина предложения 0
Я использовал GIZA++ для перевода предложения, когда я использовал в наборе тестовых данных сообщение об ошибке "ОШИБКА: запрещенная длина нулевого предложения 0". Есть ли способ избежать этой ошибки
1 ответ
Решение
У меня была такая же проблема с корпусом en-vi. (Английский-вьетнамский) Потому что ваши данные корпуса слишком длинные или не чистые.
Вы должны очистить ваши данные корпуса.
Это ограничит длину предложения до 80. Это команда с инструментами Моисея.
~/mosesdecoder/scripts/training/clean-corpus-n.perl
~/corpus/train en vi
~/corpus/train.clean 1 80
Или вы можете настроить вручную.
Попробуйте сократить длину каждой строки не более 100 символов или 80 слов.