Как использовать BLEU для сравнения вашей модели с существующими моделями?

Поэтому я использую метрику оценки BLEU для сравнения производительности моей модели NMT с существующими моделями. Однако мне интересно, сколько настроек мне нужно, чтобы соответствовать другим моделям.

Такие настройки, как наборы разработчика, наборы тестов и гиперпараметры, я думаю, выполнимы. Тем не менее, этап предварительной обработки, который я использую, отличается от существующих моделей, и поэтому мне интересно, можно ли сравнить показатель BLEU моей модели с другими. Также есть вероятность, что существующие модели имеют скрытые параметры, о которых не сообщалось.

https://arxiv.org/pdf/1804.08771.pdf решает проблему сообщения BLEU и вызовов для переключения на SacreBLEU. Но многие существующие модели используют BLEU, поэтому я не думаю, что могу использовать метрику оценки SacreBLEU на моей модели.

1 ответ

Решение

ТЛ; др

SacreBLEU - это не другой показатель, это реализация BLEU, поэтому то, что вы видите в документах как BLEU, должно быть сопоставимо с тем, что вы получаете от SacreBLEU. Используйте SacreBLEU, когда можете.

Краткая история баллов BLEU

Балл BLEU очень чувствителен к токенизации, поэтому важно, чтобы все использовали один и тот же. Первоначально была реализация Perl 2001 года, которая долгое время считалась канонической реализацией BLEU. Использование скрипта сопряжено со многими трудностями (он написан на Perl, требует, чтобы данные были в довольно неясном формате SGM). Из-за этого (и потому что оценка BLEU довольно проста) появилось много независимых реализаций, например, в MultEval, NLTK. Они проще в использовании, но из-за некоторых незначительных различий в предварительной обработке данных не дают одинаковых результатов. SacreBLEU может выполнять те же токенизации и получать те же оценки, что и исходный сценарий Perl, но считывает данные в виде открытого текста и находится на языке Python, который в настоящее время чаще всего используется в машинном переводе.

Другие вопросы по тегам