Поиск кода на основе семантики
У нас большое количество репозиториев. Мы хотим реализовать поиск кода на основе семантики (функциональности) в этих репозиториях. Прямо сейчас мы уже реализовали поиск по коду по ключевым словам, в котором мы просканировали все файлы репозитория и проиндексировали их с помощью asticsearch. Но это не решает нашу проблему, так как некоторые из репозиториев плохо прокомментированы и документированы, поэтому поиск конкретных кодов / библиотек становится затруднительным.
Итак, мой вопрос: существуют ли какие-либо библиотеки с открытым исходным кодом или любая предыдущая работа, выполненная в этой области, которая могла бы помочь нам проиндексировать семантику файлов репозитория, чтобы поиск кода стал легким, и это также помогло бы нам в повторном использовании кодов, Я нашел некоторые исследовательские работы, такие как просмотр семантического кода, поиск кода на основе семантики и т. Д., Но они были бесполезны, поскольку не было дано реальной реализации. Так что вы можете предложить несколько хороших библиотек или проектов, которые могут помочь мне в достижении того же.
PS:-Кроме того, такие компании, как Koders, Google, cocycles.com и т. Д. Начали свой поиск кода на основе функциональности. Но большинство из них прекратили свою работу, не дав должной обратной связи, может кто-нибудь сказать, с какими трудностями они сталкиваются.
2 ответа
Я не уверен, что это то, что вам нужно, но я написал https://github.com/google/zoekt, в котором для понимания рейтинга используется понимание кода на основе ctags.