API Jaunt Webcrawler неправильно обрабатывает относительные URL

Я реализую сканер, который делает что-то вроде:

repeat
 Visit each page and get all links that have not been visited.
until no new links

Страница, которую он сканирует,

https://www.mercadoribeirao.com.br/

Я получаю все ссылки, такие как:

<a href="produtos.php?id_sub=104&amp;fruta-nacional" class="new_sub_menu">
                            Fruta Nacional                      </a>

На первой странице он получает ссылки правильно:

https://www.mercadoribeirao.com.br/produtos.php?id_sub=253&espumante-nacional
https://www.mercadoribeirao.com.br/produtos.php?id_sub=245&frances
https://www.mercadoribeirao.com.br/produtos.php?id_sub=246&italiano
https://www.mercadoribeirao.com.br/produtos.php?id_sub=248&nacional
https://www.mercadoribeirao.com.br/produtos.php?id_sub=414&outros

Но когда он посещает подстраницы, URL объединяется неправильно:

https://www.mercadoribeirao.com.br/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=197&salgadinho-e-snack
https://www.mercadoribeirao.com.br/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=198&sardinha,-atum-e-cia
https://www.mercadoribeirao.com.br/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=388&micoses/calos/produtos.php?id_sub=199&sopas-e-cremes

Возможно, потому что прогуливается попытка заполнить относительные ссылки автоматически, чтобы объединить ссылку в конце URL, а не на базовой странице.

Эти новые ссылки по какой-то причине являются правильными, тогда всегда есть новые ссылки, которые нужно посетить, и это происходит бесконечно, и процесс никогда не заканчивается.

Есть ли способ обойти эту проблему?

1 ответ

Решение

Ошибка связана с URL-адресами, которые заканчиваются на "/". Он неправильно истолковывает себя, когда приходится конвертировать относительные абсолютные ссылки в эти документы.

Ошибка была распознана и исправлена ​​в версии 1.1.3 API Jaunt: http://jaunt-api.com/Jaunt%201.1.3%20Release%20Notes.txt

Другие вопросы по тегам