Можно ли сравнивать баллы Test BLEU между моделями NMT, используя слегка модифицированные стандартные тестовые наборы?
Я использую tst2013.en, найденный здесь, как мои тестовые наборы, чтобы получить Тест BLEU
оценка для сравнения с другими предыдущими моделями. Однако я должен отфильтровать некоторые предложения, которые длиннее 100 слов, иначе у меня не будет ресурса для запуска модели.
Но с немного модифицированными тестовыми наборами, приемлемо ли сравнивать Тест BLEU
оценка для других моделей, которые используют неизмененные тестовые наборы?
1 ответ
Нет, важно, чтобы результаты были сопоставимыми, чтобы целевая сторона данных теста не изменялась. Удаление более длинных предложений, вероятно, дало бы вам несправедливый прирост в балле BLEU, потому что все системы имеют тенденцию работать хуже при более длинных предложениях.
Если ваша модель действительно не может обрабатывать предложения длиной более 100 слов (может быть, вы можете уменьшить размер пакета?), Правильное решение вашей проблемы:
- обрезать исходную часть набора тестовых данных так, чтобы предложения имели длину не более 100 слов, не удаляйте их
- перевести измененную исходную сторону набора данных
- оценивать переводы, используя неизменную целевую сторону тестовых данных