API Jaunt Webcrawler неправильно обрабатывает относительные URL
Я реализую сканер, который делает что-то вроде:
repeat
Visit each page and get all links that have not been visited.
until no new links
Страница, которую он сканирует,
https://www.mercadoribeirao.com.br/
Я получаю все ссылки, такие как:
<a href="produtos.php?id_sub=104&fruta-nacional" class="new_sub_menu">
Fruta Nacional </a>
На первой странице он получает ссылки правильно:
https://www.mercadoribeirao.com.br/produtos.php?id_sub=253&espumante-nacional
https://www.mercadoribeirao.com.br/produtos.php?id_sub=245&frances
https://www.mercadoribeirao.com.br/produtos.php?id_sub=246&italiano
https://www.mercadoribeirao.com.br/produtos.php?id_sub=248&nacional
https://www.mercadoribeirao.com.br/produtos.php?id_sub=414&outros
Но когда он посещает подстраницы, URL объединяется неправильно:
https://www.mercadoribeirao.com.br/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=197&salgadinho-e-snack
https://www.mercadoribeirao.com.br/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=198&sardinha,-atum-e-cia
https://www.mercadoribeirao.com.br/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=199&sopas-e-cremes
Возможно, потому что прогуливается попытка заполнить относительные ссылки автоматически, чтобы объединить ссылку в конце URL, а не на базовой странице.
Эти новые ссылки по какой-то причине являются правильными, тогда всегда есть новые ссылки, которые нужно посетить, и это происходит бесконечно, и процесс никогда не заканчивается.
Есть ли способ обойти эту проблему?
1 ответ
Ошибка связана с URL-адресами, которые заканчиваются на "/". Он неправильно истолковывает себя, когда приходится конвертировать относительные абсолютные ссылки в эти документы.
Ошибка была распознана и исправлена в версии 1.1.3 API Jaunt: http://jaunt-api.com/Jaunt%201.1.3%20Release%20Notes.txt