Длинные предложения не подходят для моделей глубокого обучения?
Интересно узнать, хороши ли длинные предложения для обучения модели тензорного тензора. А почему или почему нет?
1 ответ
В идеале данные обучения должны иметь такое же распределение длин предложений, как и данные целевого теста. Например, в машинном переводе, если длинные предложения предназначены для перевода окончательной моделью, аналогично длинные предложения следует использовать и для обучения. Модель Transformer, по-видимому, не обобщает более длинные предложения, чем те, которые использовались для обучения, но ограничение максимальной длины предложения в обучении позволяет использовать более крупные размеры пакетов, что полезно ( Popel and Bojar, 2018).