Сканирование нескольких веб-страниц с веб-сайта

Я хочу извлечь данные с веб-сайта. Скажем, URL-адрес http://www.example.com/. Поэтому я поместил этот URL в start_urls (ссылаясь на пример DMOZ в документации). Но я также хочу создать графический интерфейс, когда я ввожу строку и нажимаю на кнопку, она добавит эту строку к start_urls и извлеките все страницы, к которым можно получить доступ следующим образом: http://www.example.com/computer/page-1. Так скажите, пожалуйста, как я могу сделать это с помощью цикла? Я пытался поместить больше URL в start_urls вручную, чтобы проверить, работает ли он, но он не отвечает должным образом. Иногда это не получает ответа. Есть мысли по этому поводу?

2 ответа

В зависимости от ваших потребностей, Netwoof может сделать это для вас. Может зацикливаться на ссылках, нескольких страницах результатов и т. Д. Он полностью автоматизирован, генерирует API и может даже квалифицировать неприспособленные данные в структурированных данных.

Как вы могли бы сделать это с помощью цикла?

Друг, это была бы какая-то петля. Серьезно, я хотел бы рассмотреть существующие сценарии с открытым исходным кодом и приложения, которые делают это. Вы легко сможете увидеть и понять, как это можно сделать. Тогда, конечно, вы можете сделать все, что хотите, лучше, все, что захотите. Я совершенно уверен, что существует много примеров веб-паутинга. С моим ограниченным набором инструментов, я бы, вероятно, попытался взломать что-нибудь с помощью wget, управляемым с помощью некоторого вида сценария bash или perl, но это я и не обязательно благоприятен для многих людей.

Что касается самой "задачи", если вы действительно хотите кодировать ее самостоятельно, рассмотрите возможность разделения на подзадачи. Некоторые увидят, что 2 приложения выполняют эту задачу. Например, у вас может быть одно приложение, которое может хранить ссылки, а другое - "сборщик", паук.

И постарайтесь не думать с точки зрения "петель". На этом этапе вашего проекта еще нет цикла.

Если вы работаете в Linux или у вас установлен Cygwin / GnuTools для Windows, как я и намекнул, я сильно подозреваю, что для этого может быть создан скрипт wget, просмотрите список текстовых ссылок и получите css, изображения и, возможно, даже js.

Конечно, после того, как все это работает нормально из командной строки, возможно, вы захотите, чтобы клиентский интерфейс получил к нему дружественный доступ. Опять же, в зависимости от используемого языка / технологии, у вас будут разные варианты. Это другая тема, в которую я не буду вдаваться.

Надеюсь, это поможет, ура!

В двух словах, вы можете искать существующие ресурсы веб-пауков с открытым исходным кодом в Sourceforge, git-hub, google и т. Д.

Другие вопросы по тегам