Связь между моделями внедрения и моделями вывода LLM в архитектуре RAG
Я пытаюсь реализовать архитектуру RAG в AWS с документами на испанском языке.
Мой вопрос следующий: имеет ли значение, генерирую ли я вложения документов с помощью модели, обученной на английском языке или многоязычной? Или мне нужно создать вложения с помощью модели, специально обученной на испанском языке?
В настоящее время я использую модель GPT-J-6b для генерации вложений и модель Falcon-40b для генерации ответа (вывода), но при выполнении поиска по сходству я не получаю хороших результатов.
Другой вопрос, который у меня возникает: является ли хорошей практикой использовать одну и ту же модель как для генерации вложений, так и для генерации вывода?
1 ответ
GPT-J-6b обучен на The Pile, который в основном английский, за исключением части EuroParl, которая содержит испанский, но, вероятно, не относится к тому же домену, что и ваш текст. Это делает GPT-J-6b не очень подходящим для создания вложений для испанского текста.
Вам следует использовать модель, обученную на испанских данных, либо только испанскую, либо многоязычную. Конечно, чем сильнее различаются область обучающих данных и ваша, тем хуже совпадения вы получите.
Использование одной и той же модели как для генерации вложений, так и для генерации вывода не должно иметь большого значения. Они применяются к различным частям архитектуры.