Снупи спотыкается о https?
Запуск простого искателя php через Snoopy - http://turma.sourceforge.net/web/urlator/snoopy.html - но у функции Fetchlinks() есть небольшая проблема. Обычно fetchlinks() захватывает все ссылки на странице и аккуратно помещает их в массив. Это работает нормально для всех ссылок http: //, но любые ссылки https: // привязываются к ссылкам http: // и не помещаются в отдельный слот в массиве.
Пример неработающих https-ссылок:
[472] => http://www.vapetropolis.ca/returns/https://www.vapetropolis.ca/product-warranties [473] => http://www.vapetropolis.ca/vaporizer-parts/davinci-vaporizer/https://www.vapetropolis.ca/product-warranties/https://www.vapetropolis.ca/customer/account/
Как видите, они прикреплены к правильно сформированным ссылкам http: //.
Это код, который производит это
function crawl_link($link, array &$sitewide_link_list) {
$snoopy = new Snoopy;
//Get all links from first page
$snoopy->fetchlinks($link);
$currPage = $snoopy->results;
//Add all links to global array
//First, filter the links
//Ensure all links are from correct domain
$parsedDomain = 'www.vapetropolis.ca';
if (is_array($currPage)) {
foreach ($currPage as $link) {
if ($parsedDomain == parse_url( $link, PHP_URL_HOST )) {
if (!in_array($link, $sitewide_link_list)) {
array_push($sitewide_link_list, $link);
}
}
}
}
}
//Start crawl
//Global array of links
$sitewide_link_list = array();
$checkList = array();
$done = false;
$domain = 'http://www.vapetropolis.ca';
crawl_link($domain, $sitewide_link_list);
print_r($sitewide_link_list);
Любая подсказка, что может происходить?