Относительно сканирования коротких URL с использованием Nutch

Question

Относительно сканирования коротких URL с использованием Nutch

Я использую Nutch Crawler для моего приложения, которое должно сканировать набор URL-адресов, которые я даю urls каталог и получить только содержимое этого URL только. Меня не интересует содержание внутренних или внешних ссылок. Поэтому я использовал сканер NUTCH и запустил команду сканирования, задав глубину 1.

URL-адреса сканирования бина / ореха -dir-обхода - глубина 1

Натч ползет URL-адреса и дает мне содержимое данных URL-адресов.

Я читаю содержимое с помощью утилиты readseg.

bin / nutch readseg -dump crawl / сегменты / * arjun -nocontent -nofetch -nogenrate -noparse -noparsedata

С этим я загружаю содержание веб-страницы.

Проблема, с которой я сталкиваюсь, заключается в том,

http://isoc.org/wp/worldipv6day/
http://openhackindia.eventbrite.com
http://www.urlesque.com/2010/06/11/last-shot-ye-olde-twitter/
http://www.readwriteweb.com/archives/place_your_tweets_with_twitter_locations.php
http://bangalore.yahoo.com/labs/summerschool.html
http://riadevcamp.eventbrite.com
http://www.sleepingtime.org/

тогда я могу получить содержимое веб-страницы. Но когда я даю набор URL-адресов в виде коротких URL-адресов, таких как

http://is.gd/jOoAa9
http://is.gd/ubHRAF
http://is.gd/GiFqj9
http://is.gd/H5rUhg
http://is.gd/wvKINL
http://is.gd/K6jTNl
http://is.gd/mpa6fr
http://is.gd/fmobvj
http://is.gd/s7uZf***

Я не могу получить содержимое.

Когда я читаю сегменты, он не показывает никакого контента. Ниже вы найдете содержимое файла дампа, прочитанного из сегментов.

* Recno:: 0
URL:: http://is.gd/0yKjO6
CrawlDatum::
Версия: 7
Статус: 1 (db_unfetched)
Время выборки: вторник, 25 января 20:56:07 IST 2011
Время изменения: чт 01 января 05:30:00 IST 1970
Повторных попыток с момента получения: 0
Интервал повторения: 2592000 секунд (30 дней)
Оценка: 1,0
Подпись: ноль
Метаданные: _ngt_: 1295969171407
Содержание::
Версия: -1
URL: http://is.gd/0yKjO6
база: http://is.gd/0yKjO6
contentType: text/html
метаданные: дата = вторник, 25 января 2011 г. 15:26:28 GMT nutch.crawl.score=1.0 местоположение =http://holykaw.alltop.com/the-twitter-cool-of-a-to-z?tu4=1 _fst_=36 nutch.segment.name=20110125205614 Content-Type=text/html; charset=UTF-8 Connection= закрыть сервер =nginx X-Powered-By=PHP/5.2.14
Содержание:
Recno:: 1
URL:: http://is.gd/1tpKaN
Содержание::
Версия: -1
URL: http://is.gd/1tpKaN
база: http://is.gd/1tpKaN
contentType: text/html
метаданные: Дата = вторник, 25 января 2011 г. 15:26:28 GMT nutch.crawl.score=1.0 Местоположение =http://holykaw.alltop.com/fighting-for-women-who-dont-want-a-voice?tu3=1 _fst_=36 nutch.segment.name=20110125205614 Content-Type=text/html; charset=UTF-8 Connection= закрыть сервер =nginx X-Powered-By=PHP/5.2.14
Содержание:
CrawlDatum::
Версия: 7
Статус: 1 (db_unfetched)
Время выборки: вторник, 25 января 20:56:07 IST 2011
Время изменения: чт 01 января 05:30:00 IST 1970
Повторных попыток с момента получения: 0
Интервал повторения: 2592000 секунд (30 дней)
Оценка: 1,0 *

Я также попытался, установив свойство max.redirects в Nutch-default.xml равным 4, но dint найти какой-либо прогресс. Пожалуйста, предоставьте мне решение этой проблемы.

Спасибо и всего наилучшего, Арджун Кумар Редди

1

web-crawler nutch short-url

Источник

user589317 25 янв '11 в 16:35

2 ответа

Другие вопросы по тегам web-crawler nutch short-url

user435140 18 апр '11 в 12:33 2011-04-18 12:33 · Answer 1 · 2011-04-18 12:33

Используя nutch 1.2 попробуйте отредактировать файл conf/nutch-default.xml
найдите http.redirect.max и измените значение по крайней мере на 1 вместо значения по умолчанию 0.

<property>
  <name>http.redirect.max</name>
  <value>2</value><!-- instead of 0 -->
  <description>The maximum number of redirects the fetcher will follow when
  trying to fetch a page. If set to negative or 0, fetcher won't immediately
  follow redirected URLs, instead it will record them for later fetching.
  </description>
</property>

Удачи

user183100 25 янв '11 в 16:53 2011-01-25 16:53 · Answer 2 · 2011-01-25 16:53

Вам придется установить глубину 2 или более, потому что первая выборка возвращает код 301 (или 302). Перенаправление будет следовать на следующей итерации, поэтому вы должны позволить больше глубины.

Кроме того, убедитесь, что вы разрешаете все URL-адреса, которые будут следовать в вашем regex-urlfilter.txt