Можно ли сравнивать баллы Test BLEU между моделями NMT, используя слегка модифицированные стандартные тестовые наборы?

Я использую tst2013.en, найденный здесь, как мои тестовые наборы, чтобы получить Тест BLEU оценка для сравнения с другими предыдущими моделями. Однако я должен отфильтровать некоторые предложения, которые длиннее 100 слов, иначе у меня не будет ресурса для запуска модели.

Но с немного модифицированными тестовыми наборами, приемлемо ли сравнивать Тест BLEU оценка для других моделей, которые используют неизмененные тестовые наборы?

1 ответ

Решение

Нет, важно, чтобы результаты были сопоставимыми, чтобы целевая сторона данных теста не изменялась. Удаление более длинных предложений, вероятно, дало бы вам несправедливый прирост в балле BLEU, потому что все системы имеют тенденцию работать хуже при более длинных предложениях.

Если ваша модель действительно не может обрабатывать предложения длиной более 100 слов (может быть, вы можете уменьшить размер пакета?), Правильное решение вашей проблемы:

  • обрезать исходную часть набора тестовых данных так, чтобы предложения имели длину не более 100 слов, не удаляйте их
  • перевести измененную исходную сторону набора данных
  • оценивать переводы, используя неизменную целевую сторону тестовых данных
Другие вопросы по тегам