Немногочисленное обучение с использованием GPT2 [закрыто]

Каким образом осуществляется обучение по принципу «один / несколько выстрелов» для моделей НЛП (например, GPT2), если обновление градиента не является частью процесса?