Пространственный компонент времени для LangChain и векторных баз данных?
Недавно я работал с PrivateGPT и создал парсеры контента, чтобы извлекать справочные статьи для загрузки. В настоящее время мой проект очищает PrivateGPT каждый день, чтобы загрузить и суммировать набор статей за предыдущий день. Кажется, это лучший способ получить истинное представление о контенте предыдущего дня.
В идеале мне бы очень хотелось иметь возможность подсказывать Chat о том, что было написано в определенный день или период времени (например, что сообщалось на прошлой неделе о XYZ?). Мне трудно концептуально представить, как это вообще возможно. Начну с того, что перед первой строкой каждой статьи я добавляю что-то вроде «6 августа 2023 года Джон Смит из ЭТОГО ИСТОЧНИКА сообщил из ЭТОГО МЕСТА, что…». Глядя на исходные фрагменты, которые возвращаются, изначально не кажется, что контент, извлекаемый из базовой векторной базы данных, может ссылаться на дату и время (хотя он, конечно, ссылается на исходный фрагмент текста, который привел к получению ответа). Вы могли бы расширить это, возможно, даже добавив геопространственный компонент (например, подведите итог тому, что сообщалось на прошлой неделе для ЭТОГО МЕСТА).
Любое объяснение или, в идеале, ссылка на онлайн-источники для более глубокого изучения того, как векторные базы данных (например, Chroma) как набор инструментов в сочетании с LLM-дисками LangChain, будут оценены по достоинству. Заранее извиняюсь, если мой вопрос был неясен или неинформативен, поскольку я только начинаю и в конце дня действительно хочу понять, что я создаю.
=-Дэйв