Как сканировать всю Википедию?

Question

Как сканировать всю Википедию?

Я пробовал приложение WebSphinx.

Я понимаю, что если я добавлю wikipedia.org в качестве начального URL, он больше не будет сканироваться.

Следовательно, как на самом деле сканировать всю Википедию? Кто-нибудь может дать мне несколько рекомендаций? Нужно ли мне специально искать эти URL и указывать несколько начальных URL?

У кого-нибудь есть предложения по созданию хорошего веб-сайта с руководством по API WebSphinx?

10

java web-crawler wikipedia websphinx

Источник

user188384 22 фев '10 в 20:01

6 ответов

Решение

Я не уверен, но, возможно, пользовательский агент WEbSphinx заблокирован robots.txt из Википедии

http://en.wikipedia.org/robots.txt

4

Источник

user238944 22 фев '10 в 20:05

В дополнение к упомянутому выше дампу базы данных Википедии вы можете использовать API Википедии для выполнения запросов, таких как получение 100 случайных статей.

http://www.mediawiki.org/wiki/API:Query_-_Lists

2

Источник

user220997 23 фев '10 в 00:50

Я думаю, что вы не могли выбрать необходимую конфигурацию для этого. Переключитесь на расширенный, сканируйте поддомен, не ограничивайте размер страницы и время.

Тем не менее, WebSphinx, вероятно, не может сканировать всю Википедию, он замедляется при увеличении объема данных и в конечном итоге останавливается при использовании около 200 МБ памяти. Я рекомендую вам Nutch, Heritrix и Crawler4j.

2

Источник

user1275577 21 апр '12 в 13:04

Возможно, вам нужно начать со случайной статьи, а затем отсканировать все статьи, к которым вы можете обратиться из этой начальной. Когда это дерево поиска будет исчерпано, начните с новой случайной статьи. Вы можете заполнить свои поиски терминами, которые, по вашему мнению, приведут к большинству статей, или начните с избранной статьи на первой странице.

Еще один вопрос: почему WebSphinx не ползет дальше? Википедия блокирует ботов, которые идентифицируются как "WebSphinx"?

0

Источник

user192801 22 фев '10 в 20:03

Взгляните на dbpedia, структурированную версию Википедии.

-1

Источник

user1253826 19 авг '14 в 00:01

Другие вопросы по тегам java web-crawler wikipedia websphinx

user826 22 фев '10 в 20:02 2010-02-22 20:02 · Accepted Answer · 2010-02-22 20:02

Если ваша цель состоит в том, чтобы сканировать всю Википедию, вы можете посмотреть доступные дампы базы данных. Смотрите http://download.wikimedia.org/.

51

Источник

user826 22 фев '10 в 20:02