Почему в моделях GPT или Language не используется маскировка?
Я изучал Bert и GPT, то есть модели языков с масками и языковые модели. Вот чего я не понимаю:
- Принимают ли языковые модели (например, GPT) по одному слову за раз?
- А также почему они не принимают все предложение в качестве входных данных за раз и не применяют маскировку, как это делают ENCODERS/ MLM?
- Как мы знаем, MLM - это кодировщик преобразователя, который в целом дает нам вектор контекста входного предложения, а затем, предположительно, MLM/ Bert выдают выходные данные как вектор контекста, как они используются для прогнозирования / классификации проблем? (с этой тонкой настройкой и чем все ...)