Доработка GPT-2/3 на новые данные
Я пытаюсь сосредоточиться на обучении языковых моделей OpenAI на новых наборах данных. Есть ли здесь кто-нибудь с опытом в этом отношении? Моя идея состоит в том, чтобы накормить GPT-2 или 3 (хотя у меня нет доступа API к 3) учебником, обучить его на нем и впоследствии иметь возможность «обсуждать» содержание книги с языковой моделью. Не думаю, что мне придется менять какие-либо гиперпараметры, мне просто нужно больше данных в модели.
Является ли это возможным??
Большое спасибо за любую (в том числе концептуальную) помощь!
2 ответа
В настоящее время у GPT-3 нет возможности дорабатывать, как у нас с GPT-2 или GPT-Neo / Neo-X. Это связано с тем, что модель хранится на их сервере, и запросы должны выполняться через API. Сказав это, OpenAI GPT-3 предоставляет API ответов, который вы можете предоставить с контекстными документами (до 200 файлов / 1 ГБ). Затем API можно было бы использовать как способ обсуждения с ним.
Точно можно переучить GPT-2. Вы хотите обучить его только для целей генерации языка или у вас есть конкретная задача, которую вы хотели бы адаптировать к GPT-2?
Обе эти задачи возможны и не слишком сложны. Если вы хотите обучить модель для генерации языка, то есть заставить ее генерировать текст по определенной теме, вы можете обучить модель точно так же, как она была обучена на этапе предварительного обучения. Это означает обучение его на задаче прогнозирования следующего токена с функцией кросс-энтропийных потерь. Пока у вас есть набор данных и приличная вычислительная мощность, это не так уж сложно реализовать.
Когда вы говорите «обсудите» содержание книги, мне кажется, что вы ищете модель диалога / чат-бота. Чат-боты обучаются по-другому, и если вы действительно ищете модель диалога, вы можете посмотреть DialoGPT и другие модели. Их можно обучить, чтобы они стали диалоговыми агентами, ориентированными на выполнение задач.