Сравнение методов системы контроля качества в наборе данных Markdown из 1000 документов: индексы и встраивания с помощью GPT-4 и переобучение GPT4ALL (или аналогичного)

Question

Сравнение методов системы контроля качества в наборе данных Markdown из 1000 документов: индексы и встраивания с помощью GPT-4 и переобучение GPT4ALL (или аналогичного)

Я работаю над проектом по созданию системы вопросов и ответов для портала документации, содержащего более 1000 документов Markdown, каждый из которых состоит примерно из 2000–4000 токенов.

Я рассматриваю следующие два варианта:

Использование индексов и вложений с GPT-4
Переобучение такой модели, как GPT4ALL (или аналогичной модели), для конкретной обработки моего набора данных.

Какой из этих подходов с большей вероятностью даст лучшие результаты для моего варианта использования?

3

deep-learning openai-api large-language-model gpt-4 gpt4all

Источник

user354067 09 апр '23 в 11:58

1 ответ

Другие вопросы по тегам deep-learning openai-api large-language-model gpt-4 gpt4all

user844936 10 апр '23 в 04:59 2023-04-10 04:59 · Answer 1 · 2023-04-10 04:59

1000 файлов с ограниченным количеством данных не смогут дать вам хорошего результата, если вы переобучитесь. Вместо этого используйте встраивание. Я попробовал то же самое для своих клиентов и в конце концов предпочел встраивание тонкой настройке модели.