Относительно сканирования коротких URL с использованием Nutch
Я использую Nutch Crawler для моего приложения, которое должно сканировать набор URL-адресов, которые я даю urls
каталог и получить только содержимое этого URL только. Меня не интересует содержание внутренних или внешних ссылок. Поэтому я использовал сканер NUTCH и запустил команду сканирования, задав глубину 1.
URL-адреса сканирования бина / ореха -dir-обхода - глубина 1
Натч ползет URL-адреса и дает мне содержимое данных URL-адресов.
Я читаю содержимое с помощью утилиты readseg.
bin / nutch readseg -dump crawl / сегменты / * arjun -nocontent -nofetch -nogenrate -noparse -noparsedata
С этим я загружаю содержание веб-страницы.
Проблема, с которой я сталкиваюсь, заключается в том,
http://isoc.org/wp/worldipv6day/ http://openhackindia.eventbrite.com http://www.urlesque.com/2010/06/11/last-shot-ye-olde-twitter/ http://www.readwriteweb.com/archives/place_your_tweets_with_twitter_locations.php http://bangalore.yahoo.com/labs/summerschool.html http://riadevcamp.eventbrite.com http://www.sleepingtime.org/
тогда я могу получить содержимое веб-страницы. Но когда я даю набор URL-адресов в виде коротких URL-адресов, таких как
http://is.gd/jOoAa9 http://is.gd/ubHRAF http://is.gd/GiFqj9 http://is.gd/H5rUhg http://is.gd/wvKINL http://is.gd/K6jTNl http://is.gd/mpa6fr http://is.gd/fmobvj http://is.gd/s7uZf***
Я не могу получить содержимое.
Когда я читаю сегменты, он не показывает никакого контента. Ниже вы найдете содержимое файла дампа, прочитанного из сегментов.
* Recno:: 0 URL:: http://is.gd/0yKjO6 CrawlDatum:: Версия: 7 Статус: 1 (db_unfetched) Время выборки: вторник, 25 января 20:56:07 IST 2011 Время изменения: чт 01 января 05:30:00 IST 1970 Повторных попыток с момента получения: 0 Интервал повторения: 2592000 секунд (30 дней) Оценка: 1,0 Подпись: ноль Метаданные: _ngt_: 1295969171407 Содержание:: Версия: -1 URL: http://is.gd/0yKjO6 база: http://is.gd/0yKjO6 contentType: text/html метаданные: дата = вторник, 25 января 2011 г. 15:26:28 GMT nutch.crawl.score=1.0 местоположение =http://holykaw.alltop.com/the-twitter-cool-of-a-to-z?tu4=1 _fst_=36 nutch.segment.name=20110125205614 Content-Type=text/html; charset=UTF-8 Connection= закрыть сервер =nginx X-Powered-By=PHP/5.2.14 Содержание: Recno:: 1 URL:: http://is.gd/1tpKaN Содержание:: Версия: -1 URL: http://is.gd/1tpKaN база: http://is.gd/1tpKaN contentType: text/html метаданные: Дата = вторник, 25 января 2011 г. 15:26:28 GMT nutch.crawl.score=1.0 Местоположение =http://holykaw.alltop.com/fighting-for-women-who-dont-want-a-voice?tu3=1 _fst_=36 nutch.segment.name=20110125205614 Content-Type=text/html; charset=UTF-8 Connection= закрыть сервер =nginx X-Powered-By=PHP/5.2.14 Содержание: CrawlDatum:: Версия: 7 Статус: 1 (db_unfetched) Время выборки: вторник, 25 января 20:56:07 IST 2011 Время изменения: чт 01 января 05:30:00 IST 1970 Повторных попыток с момента получения: 0 Интервал повторения: 2592000 секунд (30 дней) Оценка: 1,0 *
Я также попытался, установив свойство max.redirects в Nutch-default.xml равным 4, но dint найти какой-либо прогресс. Пожалуйста, предоставьте мне решение этой проблемы.
Спасибо и всего наилучшего, Арджун Кумар Редди
2 ответа
Используя nutch 1.2 попробуйте отредактировать файл conf/nutch-default.xml
найдите http.redirect.max и измените значение по крайней мере на 1 вместо значения по умолчанию 0.
<property>
<name>http.redirect.max</name>
<value>2</value><!-- instead of 0 -->
<description>The maximum number of redirects the fetcher will follow when
trying to fetch a page. If set to negative or 0, fetcher won't immediately
follow redirected URLs, instead it will record them for later fetching.
</description>
</property>
Удачи
Вам придется установить глубину 2 или более, потому что первая выборка возвращает код 301 (или 302). Перенаправление будет следовать на следующей итерации, поэтому вы должны позволить больше глубины.
Кроме того, убедитесь, что вы разрешаете все URL-адреса, которые будут следовать в вашем regex-urlfilter.txt