Индексирование пользовательских данных на Pinecone

Итак, у меня есть данные компании (по сути, это дамп их веб-сайта), и я хочу, чтобы эти данные были проиндексированы, чтобы я мог создать семантическую поисковую систему. Структура данных примерно такая [{'title': 'какой-то заголовок','content':'содержимое веб-страницы','url': 'URL-адрес страницы'},{}....и т. д.], где каждый словарь {} представляет страницу. Проблема в размере контента. Если содержимое страницы слишком велико, мне приходится разделить это содержимое на фрагменты, затем векторизовать его и, наконец, индексировать по сосновой шишке. Для каждого фрагмента заголовок и URL-адрес одинаковы, если они принадлежат одной и той же странице. Когда я запрашиваю базу данных, я часто получаю результаты с одинаковым URL-адресом и заголовком из-за разделения на фрагменты. Как мне этого избежать? А что, если я не буду делать патроны, а векторизую весь контент, даже если он большой, а затем индексирую его по сосновой шишке. Будут ли в этом случае результаты поиска эффективными? Есть ли другой эффективный способ индексировать эти данные, чтобы создать мощную и эффективную поисковую систему?

0 ответов

Другие вопросы по тегам