Подтвердите посещения Nutch 2.x на веб-сайте в фиксированные дни с включенными выходными ссылками

Мы создали Nutch 2.3.1 с Hadoop 2.x а также HBase 0.98, Это кластер небольшого размера. На начальном этапе включено около 5000 доменов, и включены внешние ссылки, т. Е. Количество доменов со временем будет увеличиваться при переходе по исходящим ссылкам. Теперь у меня есть два ограничения для выполнения.

  1. Все домены в семени должны быть извлечены полностью (или все ссылки, доступные в БД, должны быть извлечены), прежде чем он начнет сканировать новые домены, найденные по выходным ссылкам.
  2. Убедитесь, что Nutch будет посещать выбранные страницы в течение определенного периода времени, например, через 30 дней

Теперь проблема, с которой я столкнулся, заключается в том, что Nutch начинает извлекать внешние ссылки, даже если для выборки остается много внутренних ссылок (начальных доменов). Точно так же, когда Nutch начинает получать новые и новые исходящие ссылки, у него нет возможности снова посетить страницу, так как осталось много страниц. Можно ли снова посетить страницу после определенного периода времени, даже если осталось много URL для получения?

Каков наилучший способ выполнить два вышеуказанных ограничения?

0 ответов

Другие вопросы по тегам