Сканирование нескольких веб-страниц с веб-сайта
Я хочу извлечь данные с веб-сайта. Скажем, URL-адрес http://www.example.com/. Поэтому я поместил этот URL в start_urls
(ссылаясь на пример DMOZ в документации). Но я также хочу создать графический интерфейс, когда я ввожу строку и нажимаю на кнопку, она добавит эту строку к start_urls
и извлеките все страницы, к которым можно получить доступ следующим образом: http://www.example.com/computer/page-1. Так скажите, пожалуйста, как я могу сделать это с помощью цикла? Я пытался поместить больше URL в start_urls
вручную, чтобы проверить, работает ли он, но он не отвечает должным образом. Иногда это не получает ответа. Есть мысли по этому поводу?
2 ответа
В зависимости от ваших потребностей, Netwoof может сделать это для вас. Может зацикливаться на ссылках, нескольких страницах результатов и т. Д. Он полностью автоматизирован, генерирует API и может даже квалифицировать неприспособленные данные в структурированных данных.
Как вы могли бы сделать это с помощью цикла?
Друг, это была бы какая-то петля. Серьезно, я хотел бы рассмотреть существующие сценарии с открытым исходным кодом и приложения, которые делают это. Вы легко сможете увидеть и понять, как это можно сделать. Тогда, конечно, вы можете сделать все, что хотите, лучше, все, что захотите. Я совершенно уверен, что существует много примеров веб-паутинга. С моим ограниченным набором инструментов, я бы, вероятно, попытался взломать что-нибудь с помощью wget, управляемым с помощью некоторого вида сценария bash или perl, но это я и не обязательно благоприятен для многих людей.
Что касается самой "задачи", если вы действительно хотите кодировать ее самостоятельно, рассмотрите возможность разделения на подзадачи. Некоторые увидят, что 2 приложения выполняют эту задачу. Например, у вас может быть одно приложение, которое может хранить ссылки, а другое - "сборщик", паук.
И постарайтесь не думать с точки зрения "петель". На этом этапе вашего проекта еще нет цикла.
Если вы работаете в Linux или у вас установлен Cygwin / GnuTools для Windows, как я и намекнул, я сильно подозреваю, что для этого может быть создан скрипт wget, просмотрите список текстовых ссылок и получите css, изображения и, возможно, даже js.
Конечно, после того, как все это работает нормально из командной строки, возможно, вы захотите, чтобы клиентский интерфейс получил к нему дружественный доступ. Опять же, в зависимости от используемого языка / технологии, у вас будут разные варианты. Это другая тема, в которую я не буду вдаваться.
Надеюсь, это поможет, ура!
В двух словах, вы можете искать существующие ресурсы веб-пауков с открытым исходным кодом в Sourceforge, git-hub, google и т. Д.