Веб-сканирование и Pagerank

Я студент информатики, и я немного неопытен, когда дело доходит до веб-сканирования и создания поисковых систем. В настоящее время я использую последнюю версию Open Search Server и сканирую несколько тысяч доменов. При использовании встроенного инструмента создания поисковой системы я получаю результаты поиска, которые связаны с моим запросом, но они ранжируются с использованием векторной модели документации, а не алгоритма Pagerank или чего-то подобного. В результате лучшие результаты оказываются лишь незначительно полезными, в то время как более качественные результаты с таких сайтов, как Википедия, скрыты на второй странице.

Есть ли способ запустить грубый алгоритм Pagerank в Open Search Server? Если нет, есть ли такой же простой в использовании пакет с открытым исходным кодом, который делает это?

Спасибо за помощь! Это мой первый раз, когда я делаю что-то подобное, поэтому любая обратная связь с благодарностью.

2 ответа

Я не знаком с открытым поисковым сервером, но я знаю, что большинство студентов, работающих в поисковых системах, используют Lucene или Indri. Читая статьи о новых подходах к поиску документов, вы обнаружите, что большинство из них используют один из этих двух API. Lucene более гибок, чем indri, с точки зрения определения алгоритмов различных рангов. Я предлагаю взглянуть на эти два и посмотреть, удобны ли они для вашей цели.

Как вы упомянули, шаблон веб-сканирования OpenSearchServer использует поисковый запрос с релевантностью на основе модели векторного пространства. Но если вы используете последнюю версию (v1.5.11), она также смешивает количество обратных ссылок.

Вы можете изменить вес оценки на основе обратных ссылок, по умолчанию она установлена ​​в 1.

Озвучивающая панель OpenSearchServer

В настоящее время мы работаем над обеспечением большего контроля над релевантностью. Это будет видно в будущих версиях OpenSearchServer.

Другие вопросы по тегам