Сравнение методов системы контроля качества в наборе данных Markdown из 1000 документов: индексы и встраивания с помощью GPT-4 и переобучение GPT4ALL (или аналогичного)

Я работаю над проектом по созданию системы вопросов и ответов для портала документации, содержащего более 1000 документов Markdown, каждый из которых состоит примерно из 2000–4000 токенов.

Я рассматриваю следующие два варианта:

  1. Использование индексов и вложений с GPT-4
  2. Переобучение такой модели, как GPT4ALL (или аналогичной модели), для конкретной обработки моего набора данных.

Какой из этих подходов с большей вероятностью даст лучшие результаты для моего варианта использования?

1 ответ

1000 файлов с ограниченным количеством данных не смогут дать вам хорошего результата, если вы переобучитесь. Вместо этого используйте встраивание. Я попробовал то же самое для своих клиентов и в конце концов предпочел встраивание тонкой настройке модели.

Другие вопросы по тегам