Почему в моделях GPT или Language не используется маскировка?

Я изучал Bert и GPT, то есть модели языков с масками и языковые модели. Вот чего я не понимаю:

  1. Принимают ли языковые модели (например, GPT) по одному слову за раз?
  2. А также почему они не принимают все предложение в качестве входных данных за раз и не применяют маскировку, как это делают ENCODERS/ MLM?
  3. Как мы знаем, MLM - это кодировщик преобразователя, который в целом дает нам вектор контекста входного предложения, а затем, предположительно, MLM/ Bert выдают выходные данные как вектор контекста, как они используются для прогнозирования / классификации проблем? (с этой тонкой настройкой и чем все ...)

0 ответов

Другие вопросы по тегам