Где взять веб-график с соответствующим набором данных веб-страниц
Я пытаюсь реализовать PageRank
алгоритм на множестве веб-страниц, для этого мне нужен образец dataset
веб-страниц и соответствующего им веб-графика, этот веб-график представляет ссылки между страницами, содержащимися в наборе данных.
Мне нужен веб-график, чтобы я мог получить матрицу переходов и выполнить необходимые вычисления. Пример:
URL1 -> URL2
URL3390 -> URL5
URLxxxx
это идентификатор, каким-то образом сопоставленный с соответствующей веб-страницей
Мой вопрос: как / где я могу получить этот ресурс (я перепробовал много ссылок в Интернете, но ничего не помогло), я также хотел бы, чтобы он был не очень большого размера (ограничение интернет-соединения), если я не может ли это быть так, как есть, не могли бы вы дать мне совет о том, что я должен делать?
Обновление: для людей, которые могут считать это не по теме, и, возможно, они правы, такие сети, как "Рекомендация по программному обеспечению" или "Информатика", даже не имеют соответствующих тегов и не очень подходят для этого вопроса, я ценю вашу помощь,
2 ответа
Возможно, Site Visualizer - это инструмент, который вы ищете. Приложение имеет функцию для создания визуальной карты сайта.
Загрузите и установите приложение (стандартная или профессиональная версия), нажмите кнопку " Создать новый проект", введите URL-адрес веб-сайта, который необходимо сканировать, и нажмите кнопку " Пуск".
После завершения сканирования нажмите кнопку " Рисовать" на вкладке " Визуальный файл Sitemap ". График сайта будет отображаться в виде набора страниц (прямоугольники) и ссылок (линии со стрелками). Нажмите на поле, чтобы выбрать определенную страницу и выделить ее исходящие ссылки:
Набор данных всех ссылок сайта, которые вы можете получить, используя отчет Все ссылки (на вкладке Отчеты). Вам нужны столбцы "От URL" и "До URL".
Кроме того, вы можете представить набор данных страниц или ссылок просканированного веб-сайта, используя ваш конкретный запрос SQL. Например, перейдите на вкладку База данных, введите следующий запрос и нажмите кнопку " Выполнить":
SELECT * FROM links WHERE link_type='A'
Результирующий набор будет содержать только ссылки A-tag, исключая изображения, CSS-файлы, JS и т. Д.
Программа имеет полнофункциональный 30-дневный пробный период, поэтому вы можете выполнять свои задачи бесплатно.
Вы можете попытаться найти наборы данных, используемые в дополнительной информации для документов PageRank. Вот пример: этот документ: http://langvillea.people.cofc.edu/ReorderingPageRank.pdf
использует этот набор данных: http://www.cs.cornell.edu/Courses/cs685/2002fa/data/gr0.California который предположительно содержит 9 664 узла и 16 773 ссылки. Ссылки находятся в конце файла и отображаются в формате подключения, аналогичном тому, что вы ищете.
с этой страницы (которая также имеет другие наборы данных): http://www.cs.cornell.edu/Courses/cs685/2002fa/
Вот несколько других страниц, которые объединяют наборы сетевых данных:
- http://snap.stanford.edu/data/, см., в частности, http://snap.stanford.edu/data/web-Stanford.html
- http://www.datawrangling.com/some-datasets-available-on-the-web
- http://networkdata.ics.uci.edu/resources.php
удачи!