обрабатывать несколько исследовательских статей с помощью разделителей текста langchain

У меня есть основные вопросы относительно разделителей текста langchain. У меня есть список из 1000 тезисов. Я использовал метод langchain RecursiveCharacterTextSplitter.create_documents() для фрагментации текста. Результат этого дает мне, скажем, 1005 документов. Разве мы не должны ожидать, что длина документа будет такой же, как 1000. Потому что, если мы запустим какую-либо функцию в этом документе, скажем, обобщение, мне нужно будет иметь возможность связать резюме с исходными 1000 тезисами. Я понятия не имею, как на самом деле связать результаты на основе langchain с исходным документом, чтобы получить некоторую информацию.

Если я использую векторную базу данных, например цветность, помимо разделителей текста, я получаю другой размер. Это затрудняет правильное использование результата. Может ли кто-нибудь подсказать, если я что-то упускаю? Спасибо

0 ответов

Другие вопросы по тегам