Сравнение методов системы контроля качества в наборе данных Markdown из 1000 документов: индексы и встраивания с помощью GPT-4 и переобучение GPT4ALL (или аналогичного)
Я работаю над проектом по созданию системы вопросов и ответов для портала документации, содержащего более 1000 документов Markdown, каждый из которых состоит примерно из 2000–4000 токенов.
Я рассматриваю следующие два варианта:
- Использование индексов и вложений с GPT-4
- Переобучение такой модели, как GPT4ALL (или аналогичной модели), для конкретной обработки моего набора данных.
Какой из этих подходов с большей вероятностью даст лучшие результаты для моего варианта использования?
1 ответ
1000 файлов с ограниченным количеством данных не смогут дать вам хорошего результата, если вы переобучитесь. Вместо этого используйте встраивание. Я попробовал то же самое для своих клиентов и в конце концов предпочел встраивание тонкой настройке модели.