Как ускорить индексацию OpenGrok

Question

Как ускорить индексацию OpenGrok

Недавно мой начальник попросил меня изучить возможности OpenGrok в компании, в которой я работаю. Сначала я начал с нескольких проектов на своем виртуальном сервере lubuntu, все работало нормально, но довольно медленно. Я обвинил свой ноутбук с посредственными параметрами для этого.

Теперь у меня виртуальные большие пропорции, и я также использую индексирование для большего объема данных (репозиторий SVN - 100 различных проектов, некоторые из них с несколькими ветвями, тегами и стволом, всего около 100 000 файлов, всего несколько ГБ в размер). Все файлы проверяются непосредственно в SRC_ROOT.

Я надеялся на достаточно быструю индексацию, но она работает уже более пяти дней. Я вижу несколько потоков, работающих через htop, но загрузка ЦП составляет 0,5-2,5%, использование памяти - 0,9%. Так что я думаю, это не проблема вычислительной мощности. И если нет ужасно медленных жестких дисков, я не знаю, в чем проблема.

Более того, процесс индексации замедляется. В начале это было примерно 1 сек / файл, сейчас это около 5 сек / файл. К сожалению, я не включил параметр прогресса, поэтому я не знаю, как долго он еще будет работать.

Есть идеи, как сделать индексацию быстрее? Как эффективнее использовать ресурсы? Текущая скорость просто непригодна...

7

performance indexing svn opengrok

Источник

user3967705 01 сен '14 в 13:58

1 ответ

Другие вопросы по тегам performance indexing svn opengrok

user3615954 03 сен '14 в 09:58 2014-09-03 09:58 · Answer 1 · 2014-09-03 09:58

Я думаю, что простой способ улучшить производительность - запустить индекс opengrok с настройкой JAVA_OPTS и использованием 64-битной Java. Кроме того, использование derby для хранения сгенерированных данных индекса также повышает производительность. Подробнее о том, как использовать и настроить opengrok

user11129146 28 фев '19 в 06:54 2019-02-28 06:54 · Answer 2 · 2019-02-28 06:54

Я думаю, что проблема в SVN, попробуйте отладить и улучшить скорость доступа SVN с вашей виртуальной машины или вообще отключить (временно) svn, чтобы получить быстрый индекс (и вы можете постепенно добавлять историю в индекс позже - для каждого проекта, даже если это будет потратьте несколько дней, посмотрите варианты запуска индексатора для каждого проекта) Или, если вы можете зеркально отразить репозиторий SVN и делать локальные вызовы SVN, что должно дать вам толчок. Итак, чтобы заключить, {OpenGrok может обнаружить svn, пропустить создание истории (включить ее на лету) и просто проиндексировать извлечение, а затем добавить локальную историю, чтобы избежать длительного ожидания создания истории на лету. Тем не менее, git и hg, похоже, хорошо работают с {OpenGrok с точки зрения индекса истории.

user9431158 23 дек '19 в 22:57 2019-12-23 22:57 · Answer 3 · 2019-12-23 22:57

Я сам сталкивался с этим и обнаружил, что индексатор тратит большую часть (>90%) своего времени на запросы к системам управления версиями.

Тем не менее, некоторые из проектов, которые я использую, используют Perforce и SVN, поэтому я не хочу полностью их отключать, поэтому я дважды индексировал - во-первых, со всеми параметрами, которые включают управление исходным кодом, и затем снова со всем включенным.

Таким образом, это все еще занимает много времени (в моем случае несколько дней), но, по крайней мере, у меня есть полезный индекс, работающий за несколько часов, а затем он может потратить дни на обработку всей истории.

Последующие индексы должны быть быстрее, поскольку я ожидал, что кэш истории обновляется только для файлов, которые новее, чем кешированная история.

(Тем не менее, было бы неплохо, если бы я мог обновить кэш истории извне, чтобы все было готово к работе, прежде чем я вообще запустил индексатор, и настроил индексатор, чтобы вообще не искать информацию об истории, а вместо этого просто индексировать то, что кэшировано)