Правильный способ семантического поиска по всему документу?
У меня есть куча текстовых документов, которые я хочу использовать для семантического поиска. Одна вещь, в которой я не уверен, - это степень детализации для встраивания.
Прямой способ, который я могу понять, - это разделить документ с помощью символа '\n', что означает, что я буду использовать весь абзац для получения вектора встраивания, затем сохранить вектор в FAISS как хранилище данных, а затем запросить его.
Но когда я использовал OpenAI, похоже, что он использует весь документ для создания только одного вектора для документа.
Вот я и думаю, какой лучше? Конечно, после запроса, который я хочу показать пользователю, это кажется невозможным с точки зрения OpenAI?
Спасибо.