Как сканировать всю Википедию?

Я пробовал приложение WebSphinx.

Я понимаю, что если я добавлю wikipedia.org в качестве начального URL, он больше не будет сканироваться.

Следовательно, как на самом деле сканировать всю Википедию? Кто-нибудь может дать мне несколько рекомендаций? Нужно ли мне специально искать эти URL и указывать несколько начальных URL?

У кого-нибудь есть предложения по созданию хорошего веб-сайта с руководством по API WebSphinx?

6 ответов

Решение

Если ваша цель состоит в том, чтобы сканировать всю Википедию, вы можете посмотреть доступные дампы базы данных. Смотрите http://download.wikimedia.org/.

Я не уверен, но, возможно, пользовательский агент WEbSphinx заблокирован robots.txt из Википедии

http://en.wikipedia.org/robots.txt

В дополнение к упомянутому выше дампу базы данных Википедии вы можете использовать API Википедии для выполнения запросов, таких как получение 100 случайных статей.

http://www.mediawiki.org/wiki/API:Query_-_Lists

Я думаю, что вы не могли выбрать необходимую конфигурацию для этого. Переключитесь на расширенный, сканируйте поддомен, не ограничивайте размер страницы и время.

Тем не менее, WebSphinx, вероятно, не может сканировать всю Википедию, он замедляется при увеличении объема данных и в конечном итоге останавливается при использовании около 200 МБ памяти. Я рекомендую вам Nutch, Heritrix и Crawler4j.

Возможно, вам нужно начать со случайной статьи, а затем отсканировать все статьи, к которым вы можете обратиться из этой начальной. Когда это дерево поиска будет исчерпано, начните с новой случайной статьи. Вы можете заполнить свои поиски терминами, которые, по вашему мнению, приведут к большинству статей, или начните с избранной статьи на первой странице.

Еще один вопрос: почему WebSphinx не ползет дальше? Википедия блокирует ботов, которые идентифицируются как "WebSphinx"?

Взгляните на dbpedia, структурированную версию Википедии.

Другие вопросы по тегам