Как сканировать сайт, имеющий статический URL в Python
Я хочу сканировать веб-сайт на основе PHP, в котором есть поле поиска, в котором можно ввести число, оно отображает результат по введенному номеру, когда мы нажимаем кнопку отправки или нажимаем ввод, но URL-адрес не меняется. например, показывать foo.com/res_17.php для каждого результата, но для сканирования, например, более тысячи записей, записи должны быть доступны по уникальным идентификаторам, таким как foo.com/res_17.php?id=1001, foo.com/res_17.php?id=1002 - foo.com/res_17.php?id=3450, чтобы я мог получить к ним доступ, используя цикл while. Как я могу это сделать, любое решение, пожалуйста, помогите.
1 ответ
Я дал тебе один мой сценарий
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
html = urlopen("http://en.wikipedia.org/wiki/Andrew_Ng")
bsObj = BeautifulSoup(html)
for link in bsObj.find("div", {"id":"bodyContent"}).findAll("a",
href=re.compile("^(/wiki/)((?!:).)*$")):
if 'href' in link.attrs:
print(link.attrs['href'])
Выходные данные представлены как все статьи Эндрю Нг Википедии.