Исправьте метрики NMT с помощью Fairseq на нелатинских языках.
Как вы, возможно, знаете, чтобы правильно вычислить BLEU, вам необходимо передать токенизатор в его параметры. В моем примере я работаю с корейским языком, поэтому я ожидаю, что пройдет--tokenize ko-meca
к сакреблеу. Я знаю, что fairseq вычисляет bleu для задачи перевода на этапах проверки, но я не нашел способа передать эту опцию внутрь (и даже открыл проблему https://github.com/facebookresearch/fairseq/issues/5308).
Другой вариант, который я рассматривал, — это использование cHRF, поскольку он не зависит от токенизации, но, судя по всему, код fairseq использует толькоbleu
метрика от сакреблеу.
Я также знаю, что есть возможность вычислить bleu с помощью вашего собственного токенизатора, но в этом случае метрика становится зависимой от токенизатора, чего я тоже не хочу.
Буду признателен за любые предложения по данному вопросу.