Почему такая плохая производительность для Моисея, использующего Europarl?

Я начал играть с Моисеем и пытался сделать то, что, по моему мнению, было бы достаточно стандартной базовой системой. Я в основном следовал шагам, описанным на сайте, но вместо того, чтобы использовать news-commentary Я использовал Europarl v7 для обучения, с набором для разработки WMT 2006 и оригинальным общим тестом Europarl. Моя идея состояла в том, чтобы сделать что-то похожее на Le Nagard & Koehn (2010), который получил оценку BLEU 0,68 в своей базовой англо-французской системе.

Подводя итог, мой рабочий процесс был более или менее такой:

  1. tokenizer.perl на все
  2. lowercase.perl (вместо truecase)
  3. clean-corpus-n.perl
  4. Тренируйте модель IRSTLM, используя только французские данные из Europarl v7
  5. train-model.perl именно так, как описано
  6. mert-moses.pl используя WMT 2006 dev
  7. Тестирование и измерение производительности, как описано

И в результате BLEU оценка составляет.26... Это приводит меня к двум вопросам:

  • Это типичный показатель BLEU для такого рода базовой системы? Я понимаю, что Europarl - это довольно маленький корпус для обучения одноязычной языковой модели, хотя они так поступают на сайте Моисея.
  • Есть ли какие-то типичные ловушки для кого-то, кто только начинает с SMT и / или Моисея, в которого я, возможно, попал? Или такие исследователи, как Le Nagard & Koehn, строят свои базовые системы способом, отличным от того, что описано на веб-сайте Moses, например, используют какой-то более крупный нераскрытый корпус для обучения языковой модели?

1 ответ

Решение

Проще говоря, сначала.68, на который вы ссылаетесь, не имеет ничего общего с BLEU.

Моя идея состояла в том, чтобы сделать что-то похожее на Le Nagard & Koehn (2010), который получил оценку BLEU 0,68 в своей базовой англо-французской системе.

В статье, на которую вы ссылаетесь, только говорится, что 68% местоимений (с использованием совместного разрешения) было переведено правильно. Нигде не упоминается, что был получен результат 0,68 BLEU. На самом деле, баллы не выставлялись, возможно потому, что качественное улучшение, предложенное в статье, не может быть измерено со статистической значимостью (что часто случается, если вы улучшаете только небольшое количество слов). По этой причине в статье используется только ручная оценка местоимений:

Лучшим показателем оценки является количество правильно переведенных местоимений. Это требует ручной проверки результатов перевода.

Это где.68 вступает в игру.

Теперь, чтобы ответить на ваши вопросы относительно.26 вы получили:

Это типичный показатель BLEU для такого рода базовой системы? Я понимаю, что Europarl - это довольно маленький корпус для обучения одноязычной языковой модели, хотя они так поступают на сайте Моисея.

Да, это. Вы можете найти производительность языковых пар WMT здесь http://matrix.statmt.org/

Есть ли какие-то типичные подводные камни для тех, кто только начинает с SMT и / или Моисея, в которого я, возможно, попал? Или такие исследователи, как Le Nagard & Koehn, строят свои базовые системы способом, отличным от того, что описано на веб-сайте Moses, например, используют какой-то более крупный нераскрытый корпус для обучения языковой модели?

Я предполагаю, что вы правильно обучили свою систему. Что касается вопроса о "нераскрытом корпусе": члены академического сообщества обычно указывают для каждого эксперимента, какие наборы данных использовались для обучения тестированию и настройке, по крайней мере, в рецензируемых публикациях. Единственным исключением является задача WMT (см., Например, http://www.statmt.org/wmt14/translation-task.html), в которой могут использоваться частные корпорации, если система участвует в неограниченной дорожке. Но даже тогда люди будут упоминать, что они использовали дополнительные данные.

Другие вопросы по тегам