Реализация семантического поиска в структурированных данных json

Детали высокого уровня моей проблемы заключаются в следующем. У меня есть база данных с большим количеством (55 миллионов) объектов профилей JSON. Я хочу иметь возможность сочетать поиск по ключевым словам и семантический поиск для запроса этих данных. Однако, поскольку предварительно обученные преобразователи не обучены JSON, они не могут понять мой корпус. Я пробовал следующее:

  1. Превратите весь объект JSON в естественный язык, т.е. {Образование: {начало: 1.10.2012, конец: 3.11.2018, специальность: информатика} -> Закончили свое образование в области компьютерных наук с 1.10.2012 по 03.11.2018. Использование всей этой параграфы в качестве документа для моего корпуса

  2. Разделите каждый ключ JSON на другой документ, используя 1. Таким образом, каждый профиль имеет другой документ, например, person1_education.txt, person1_experience.txt.

  3. Пробовал также семантический поиск Retriever и re-ranker.

Я пробовал несколько преобразователей, таких как distil-bert, all-mini-mpnet, roberta, и для расчета сходства я использовал FAISS.

Любая помощь будет очень признательна.

0 ответов