Снупи спотыкается о https?

Question

Снупи спотыкается о https?

Запуск простого искателя php через Snoopy - http://turma.sourceforge.net/web/urlator/snoopy.html - но у функции Fetchlinks() есть небольшая проблема. Обычно fetchlinks() захватывает все ссылки на странице и аккуратно помещает их в массив. Это работает нормально для всех ссылок http: //, но любые ссылки https: // привязываются к ссылкам http: // и не помещаются в отдельный слот в массиве.

Пример неработающих https-ссылок:

[472] => http://www.vapetropolis.ca/returns/https://www.vapetropolis.ca/product-warranties [473] => http://www.vapetropolis.ca/vaporizer-parts/davinci-vaporizer/https://www.vapetropolis.ca/product-warranties/https://www.vapetropolis.ca/customer/account/

Как видите, они прикреплены к правильно сформированным ссылкам http: //.

Это код, который производит это

    function crawl_link($link, array &$sitewide_link_list) { 
        $snoopy = new Snoopy;
        //Get all links from first page
        $snoopy->fetchlinks($link);
        $currPage = $snoopy->results;

        //Add all links to global array
        //First, filter the links
            //Ensure all links are from correct domain

        $parsedDomain = 'www.vapetropolis.ca';

        if (is_array($currPage)) {

            foreach ($currPage as $link) {
                if ($parsedDomain == parse_url( $link, PHP_URL_HOST )) {                
                    if (!in_array($link, $sitewide_link_list)) {
                        array_push($sitewide_link_list, $link);
                    }   
                }

            }
        }
    }

    //Start crawl

    //Global array of links
    $sitewide_link_list = array();
    $checkList = array();
    $done = false;


    $domain = 'http://www.vapetropolis.ca';

    crawl_link($domain, $sitewide_link_list);



    print_r($sitewide_link_list);

Любая подсказка, что может происходить?

1

php web-crawler snoopy

Источник

user1352861 29 июн '13 в 21:46

0 ответов

Другие вопросы по тегам php web-crawler snoopy