Как сканировать всю Википедию?
Я пробовал приложение WebSphinx.
Я понимаю, что если я добавлю wikipedia.org в качестве начального URL, он больше не будет сканироваться.
Следовательно, как на самом деле сканировать всю Википедию? Кто-нибудь может дать мне несколько рекомендаций? Нужно ли мне специально искать эти URL и указывать несколько начальных URL?
У кого-нибудь есть предложения по созданию хорошего веб-сайта с руководством по API WebSphinx?
6 ответов
Если ваша цель состоит в том, чтобы сканировать всю Википедию, вы можете посмотреть доступные дампы базы данных. Смотрите http://download.wikimedia.org/.
Я не уверен, но, возможно, пользовательский агент WEbSphinx заблокирован robots.txt из Википедии
В дополнение к упомянутому выше дампу базы данных Википедии вы можете использовать API Википедии для выполнения запросов, таких как получение 100 случайных статей.
Я думаю, что вы не могли выбрать необходимую конфигурацию для этого. Переключитесь на расширенный, сканируйте поддомен, не ограничивайте размер страницы и время.
Тем не менее, WebSphinx, вероятно, не может сканировать всю Википедию, он замедляется при увеличении объема данных и в конечном итоге останавливается при использовании около 200 МБ памяти. Я рекомендую вам Nutch, Heritrix и Crawler4j.
Возможно, вам нужно начать со случайной статьи, а затем отсканировать все статьи, к которым вы можете обратиться из этой начальной. Когда это дерево поиска будет исчерпано, начните с новой случайной статьи. Вы можете заполнить свои поиски терминами, которые, по вашему мнению, приведут к большинству статей, или начните с избранной статьи на первой странице.
Еще один вопрос: почему WebSphinx не ползет дальше? Википедия блокирует ботов, которые идентифицируются как "WebSphinx"?