В чем разница между оценкой BLEU и METEOR?
Я пытаюсь понять концепцию оценки оценок машинного перевода.
Я понимаю, как то, что оценка BLEU пытается достичь. Он изучает различные n-граммы, такие как BLEU-1,BLEU-2, BLEU-3, BLEU-4, и пытается сопоставить их с человеческим письменным переводом.
Однако я не могу понять, что такое METEOR для оценки качества машинного перевода. Я пытаюсь понять смысл интуитивно. Я уже просматриваю разные сообщения в блоге, но не могу понять.
Чем отличаются эти две оценочные метрики и насколько они актуальны?
Кто-нибудь может помочь?