Где взять веб-график с соответствующим набором данных веб-страниц

Я пытаюсь реализовать PageRank алгоритм на множестве веб-страниц, для этого мне нужен образец dataset веб-страниц и соответствующего им веб-графика, этот веб-график представляет ссылки между страницами, содержащимися в наборе данных.

Мне нужен веб-график, чтобы я мог получить матрицу переходов и выполнить необходимые вычисления. Пример:

URL1 -> URL2
URL3390 -> URL5

URLxxxx это идентификатор, каким-то образом сопоставленный с соответствующей веб-страницей

Мой вопрос: как / где я могу получить этот ресурс (я перепробовал много ссылок в Интернете, но ничего не помогло), я также хотел бы, чтобы он был не очень большого размера (ограничение интернет-соединения), если я не может ли это быть так, как есть, не могли бы вы дать мне совет о том, что я должен делать?

Обновление: для людей, которые могут считать это не по теме, и, возможно, они правы, такие сети, как "Рекомендация по программному обеспечению" или "Информатика", даже не имеют соответствующих тегов и не очень подходят для этого вопроса, я ценю вашу помощь,

2 ответа

Решение

Возможно, Site Visualizer - это инструмент, который вы ищете. Приложение имеет функцию для создания визуальной карты сайта.

Загрузите и установите приложение (стандартная или профессиональная версия), нажмите кнопку " Создать новый проект", введите URL-адрес веб-сайта, который необходимо сканировать, и нажмите кнопку " Пуск".

После завершения сканирования нажмите кнопку " Рисовать" на вкладке " Визуальный файл Sitemap ". График сайта будет отображаться в виде набора страниц (прямоугольники) и ссылок (линии со стрелками). Нажмите на поле, чтобы выбрать определенную страницу и выделить ее исходящие ссылки:создать визуальную карту сайта

Набор данных всех ссылок сайта, которые вы можете получить, используя отчет Все ссылки (на вкладке Отчеты). Вам нужны столбцы "От URL" и "До URL".

Кроме того, вы можете представить набор данных страниц или ссылок просканированного веб-сайта, используя ваш конкретный запрос SQL. Например, перейдите на вкладку База данных, введите следующий запрос и нажмите кнопку " Выполнить":

SELECT * FROM links WHERE link_type='A'

Результирующий набор будет содержать только ссылки A-tag, исключая изображения, CSS-файлы, JS и т. Д.

Программа имеет полнофункциональный 30-дневный пробный период, поэтому вы можете выполнять свои задачи бесплатно.

Вы можете попытаться найти наборы данных, используемые в дополнительной информации для документов PageRank. Вот пример: этот документ: http://langvillea.people.cofc.edu/ReorderingPageRank.pdf

использует этот набор данных: http://www.cs.cornell.edu/Courses/cs685/2002fa/data/gr0.California который предположительно содержит 9 664 узла и 16 773 ссылки. Ссылки находятся в конце файла и отображаются в формате подключения, аналогичном тому, что вы ищете.

с этой страницы (которая также имеет другие наборы данных): http://www.cs.cornell.edu/Courses/cs685/2002fa/

Вот несколько других страниц, которые объединяют наборы сетевых данных:

  1. http://snap.stanford.edu/data/, см., в частности, http://snap.stanford.edu/data/web-Stanford.html
  2. http://www.datawrangling.com/some-datasets-available-on-the-web
  3. http://networkdata.ics.uci.edu/resources.php

удачи!

Другие вопросы по тегам