Каким образом GPT-подобные преобразователи используют только декодер для генерации последовательности?

Question

Каким образом GPT-подобные преобразователи используют только декодер для генерации последовательности?

Я хочу написать GPT-подобный преобразователь для конкретной задачи генерации текста. GPT-подобные модели используют только блок декодера (в стеках) [1] . Я знаю, как закодировать все подмодули блока декодера, показанного ниже (от внедрения до слоя softmax) в Pytorch. Однако я не знаю, что мне следует предоставить в качестве входных данных. Там написано (на рисунке) «Выход сдвинут вправо».

Например, это мои данные (где < и > — токены sos и eos):

<abcdefgh>

Что мне следует дать моей GPT-подобной модели, чтобы она правильно обучилась?

Кроме того, поскольку я не использую кодировщик, должен ли я по-прежнему вводить данные в многоголовочный блок внимания?

Извините, если мои вопросы покажутся немного глупыми, я новичок в трансформерах.

3

deep-learning pytorch gpt-2 text-generation

Источник

user11512643 08 мар '23 в 12:04

3 ответа

Другие вопросы по тегам deep-learning pytorch gpt-2 text-generation

user12690313 08 мар '23 в 18:58 2023-03-08 18:58 · Answer 1 · 2023-03-08 18:58

Входные данные для модели только для декодера, такой как GPT, обычно представляют собой последовательность токенов, как и в модели кодировщик-декодер. Однако разница заключается в том, как обрабатывается ввод.

В модели кодера-декодера входная последовательность сначала обрабатывается компонентом кодера, который создает представление входных данных фиксированного размера, часто называемое «вектором контекста». Вектор контекста затем используется компонентом декодера для генерации выходной последовательности.

Напротив, в модели, использующей только декодер, такой как GPT, отдельный компонент кодировщика отсутствует. Вместо этого входная последовательность напрямую подается в декодер, который генерирует выходную последовательность, обрабатывая входную последовательность с помощью механизмов самообслуживания.

В обоих случаях входная последовательность обычно представляет собой последовательность токенов, которые представляют обрабатываемые текстовые данные. Токенами могут быть слова, подслова или символы, в зависимости от конкретного подхода к моделированию и степени детализации обрабатываемых текстовых данных.

user874380 29 июл '23 в 12:11 2023-07-29 12:11 · Answer 2 · 2023-07-29 12:11

Ваш вопрос не глупый, описания модели трансформера иногда немного расплывчаты.

Когда GPT-x говорит, что использует архитектуру «только для декодера», это также означает, что в декодере отсутствует блок внимания кодера, поскольку нет кодера; см. изображение ниже.

Если присмотреться, то теперь это похоже на кодер, верно? Таким образом, вы также можете сказать, что это архитектура «только для кодировщиков». Важным отличием является то, что вам по-прежнему требуется маска причинного внимания (т. е. маска внимания «не смотреть вперед»), которая используется в декодере по умолчанию.

user2697940 28 июл '23 в 12:40 2023-07-28 12:40 · Answer 3 · 2023-07-28 12:40

Если я не ошибаюсь, стек только для кодировщика должен выглядеть примерно так.

1

Источник

user2697940 28 июл '23 в 12:40