Почему в моделях GPT или Language не используется маскировка?

Question

Я изучал Bert и GPT, то есть модели языков с масками и языковые модели. Вот чего я не понимаю:

Принимают ли языковые модели (например, GPT) по одному слову за раз?
А также почему они не принимают все предложение в качестве входных данных за раз и не применяют маскировку, как это делают ENCODERS/ MLM?
Как мы знаем, MLM - это кодировщик преобразователя, который в целом дает нам вектор контекста входного предложения, а затем, предположительно, MLM/ Bert выдают выходные данные как вектор контекста, как они используются для прогнозирования / классификации проблем? (с этой тонкой настройкой и чем все ...)

bert-language-model transformer-model gpt-3 language-model

Источник

user12810581 22 авг '21 в 21:51

0 ответов

Другие вопросы по тегам bert-language-model transformer-model gpt-3 language-model