Как вы можете склонить модель seq2seq к копированию?

Я тренирую последовательность для моделей последовательностей с OpenNMT, над задачей перевода тесно связанных языков. Это работает достаточно хорошо. Но когда это терпит неудачу, это терпит неудачу плохими способами.

При использовании стандартного кодера LSTM он имеет тенденцию заикаться и повторять слова снова и снова до предела длины. С двунаправленным LSTM-кодировщиком кажется, что вместо этого он склонен глотать и обрезать слова.

То, что я хотел бы, чтобы сместить сеть, чтобы передать вещи без изменений. Неудача должна оставлять части непереведенными, не волнуясь таким образом. Я думал, что внимание сделает изучение / копирование довольно простым для изучения, но это не похоже на это. Есть ли какая-либо модель или семейство моделей, которые склонны к сквозному прохождению таким образом?

0 ответов

Другие вопросы по тегам