Как сканировать сайт, имеющий статический URL в Python

Question

Как сканировать сайт, имеющий статический URL в Python

Я хочу сканировать веб-сайт на основе PHP, в котором есть поле поиска, в котором можно ввести число, оно отображает результат по введенному номеру, когда мы нажимаем кнопку отправки или нажимаем ввод, но URL-адрес не меняется. например, показывать foo.com/res_17.php для каждого результата, но для сканирования, например, более тысячи записей, записи должны быть доступны по уникальным идентификаторам, таким как foo.com/res_17.php?id=1001, foo.com/res_17.php?id=1002 - foo.com/res_17.php?id=3450, чтобы я мог получить к ним доступ, используя цикл while. Как я могу это сделать, любое решение, пожалуйста, помогите.

-1

python php web-crawler dynamic-url

Источник

user8236418 30 июн '17 в 10:09

1 ответ

Другие вопросы по тегам python php web-crawler dynamic-url

user8006605 30 июн '17 в 10:18 2017-06-30 10:18 · Answer 1 · 2017-06-30 10:18

Я дал тебе один мой сценарий

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
html = urlopen("http://en.wikipedia.org/wiki/Andrew_Ng")
bsObj = BeautifulSoup(html)

for link in bsObj.find("div", {"id":"bodyContent"}).findAll("a",
            href=re.compile("^(/wiki/)((?!:).)*$")):
    if 'href' in link.attrs:
        print(link.attrs['href'])

Выходные данные представлены как все статьи Эндрю Нг Википедии.