Разные URL, открывающие одну и ту же веб-страницу python
Я пытаюсь сканировать веб-сайт, на котором есть много страниц для разных продуктов. Я использую следующий подход.
def extract_product_urls(url):
page_no = 0
page_urls = set()
while True:
sel = Selector(text=next(get_html(f'{url}?page={page_no}')))
links = sel.css('a.productMainLink::attr(href)').getall()
if not links:
break
page_urls |= set((map(lambda link: urljoin(url, link), links)))
page_no += 1
return page_urls
Проблема возникает, когда даже изменение номера страницы указывает на одну и ту же страницу и застревает в цикле while. Есть ли решение для этого? Или я должен получить доступ к метаинформации страниц и сравнить их по сходству.