Почему такая плохая производительность для Моисея, использующего Europarl?
Я начал играть с Моисеем и пытался сделать то, что, по моему мнению, было бы достаточно стандартной базовой системой. Я в основном следовал шагам, описанным на сайте, но вместо того, чтобы использовать news-commentary
Я использовал Europarl v7 для обучения, с набором для разработки WMT 2006 и оригинальным общим тестом Europarl. Моя идея состояла в том, чтобы сделать что-то похожее на Le Nagard & Koehn (2010), который получил оценку BLEU 0,68 в своей базовой англо-французской системе.
Подводя итог, мой рабочий процесс был более или менее такой:
tokenizer.perl
на всеlowercase.perl
(вместоtruecase
)clean-corpus-n.perl
- Тренируйте модель IRSTLM, используя только французские данные из Europarl v7
train-model.perl
именно так, как описаноmert-moses.pl
используя WMT 2006 dev- Тестирование и измерение производительности, как описано
И в результате BLEU оценка составляет.26... Это приводит меня к двум вопросам:
- Это типичный показатель BLEU для такого рода базовой системы? Я понимаю, что Europarl - это довольно маленький корпус для обучения одноязычной языковой модели, хотя они так поступают на сайте Моисея.
- Есть ли какие-то типичные ловушки для кого-то, кто только начинает с SMT и / или Моисея, в которого я, возможно, попал? Или такие исследователи, как Le Nagard & Koehn, строят свои базовые системы способом, отличным от того, что описано на веб-сайте Moses, например, используют какой-то более крупный нераскрытый корпус для обучения языковой модели?
1 ответ
Проще говоря, сначала.68, на который вы ссылаетесь, не имеет ничего общего с BLEU.
Моя идея состояла в том, чтобы сделать что-то похожее на Le Nagard & Koehn (2010), который получил оценку BLEU 0,68 в своей базовой англо-французской системе.
В статье, на которую вы ссылаетесь, только говорится, что 68% местоимений (с использованием совместного разрешения) было переведено правильно. Нигде не упоминается, что был получен результат 0,68 BLEU. На самом деле, баллы не выставлялись, возможно потому, что качественное улучшение, предложенное в статье, не может быть измерено со статистической значимостью (что часто случается, если вы улучшаете только небольшое количество слов). По этой причине в статье используется только ручная оценка местоимений:
Лучшим показателем оценки является количество правильно переведенных местоимений. Это требует ручной проверки результатов перевода.
Это где.68 вступает в игру.
Теперь, чтобы ответить на ваши вопросы относительно.26 вы получили:
Это типичный показатель BLEU для такого рода базовой системы? Я понимаю, что Europarl - это довольно маленький корпус для обучения одноязычной языковой модели, хотя они так поступают на сайте Моисея.
Да, это. Вы можете найти производительность языковых пар WMT здесь http://matrix.statmt.org/
Есть ли какие-то типичные подводные камни для тех, кто только начинает с SMT и / или Моисея, в которого я, возможно, попал? Или такие исследователи, как Le Nagard & Koehn, строят свои базовые системы способом, отличным от того, что описано на веб-сайте Moses, например, используют какой-то более крупный нераскрытый корпус для обучения языковой модели?
Я предполагаю, что вы правильно обучили свою систему. Что касается вопроса о "нераскрытом корпусе": члены академического сообщества обычно указывают для каждого эксперимента, какие наборы данных использовались для обучения тестированию и настройке, по крайней мере, в рецензируемых публикациях. Единственным исключением является задача WMT (см., Например, http://www.statmt.org/wmt14/translation-task.html), в которой могут использоваться частные корпорации, если система участвует в неограниченной дорожке. Но даже тогда люди будут упоминать, что они использовали дополнительные данные.