Разные URL, открывающие одну и ту же веб-страницу python

Я пытаюсь сканировать веб-сайт, на котором есть много страниц для разных продуктов. Я использую следующий подход.

def extract_product_urls(url):
page_no = 0
page_urls = set()
while True:
    sel = Selector(text=next(get_html(f'{url}?page={page_no}')))
    links = sel.css('a.productMainLink::attr(href)').getall()
    if not links:
        break
    page_urls |= set((map(lambda link: urljoin(url, link), links)))
    page_no += 1
return page_urls

Проблема возникает, когда даже изменение номера страницы указывает на одну и ту же страницу и застревает в цикле while. Есть ли решение для этого? Или я должен получить доступ к метаинформации страниц и сравнить их по сходству.

0 ответов

Другие вопросы по тегам