Интеграция Nutch- Hbase и Solr с использованием Gora
Я следовал учебнику по nutch2 и успешно интегрировал Nutch с HBase. Моя проблема - когда я сканирую URL, используя следующую команду ./nutch crawl urls/seed.txt abc -depth 50 -topN 50
в runtime/local/bin
каталог,
Произошла ошибка:
Exception in thread "main" java.lang.RuntimeException: job failed: name=generate: null, jobid=job_local1552667151_0002
at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:54)
at org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:199)
at org.apache.nutch.crawl.Crawler.runTool(Crawler.java:68)
at org.apache.nutch.crawl.Crawler.run(Crawler.java:152)
at org.apache.nutch.crawl.Crawler.run(Crawler.java:250)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.nutch.crawl.Crawler.main(Crawler.java:257)
пожалуйста, дайте мне решение. Любое решение будет оценено.
1 ответ
Как и может предположить большинство людей, hadoop.log - хорошее место, чтобы найти лучшее описание ошибки. В отсутствие этой информации я рискну следующие предположения:
- у вас есть настройка на Windows
- вы запускаете hbase в cygwin (попытка запустить hbase непосредственно в командной строке Windows, скорее всего, все равно не удастся)
- вы, вероятно, столкнулись с ошибкой файловой системы hdfs (проверка hadoop.log покажет, так ли это).
Вот обходной путь, опубликованный в выпусках apache jira: https://issues.apache.org/jira/browse/HADOOP-7682 Еще одна добрая душа выпустила для него патч: https://github.com/congainc/patch-hadoop_7682-1.0.x-win Если это действительно проблема, с которой вы сталкиваетесь, используйте класс WinLocalFileSystem, упомянутый в приведенном выше патче, и настройте его на использование Nutch, добавив в свой файл nutch-site.xml следующее:
<property>
<name>fs.file.impl</name>
<value>org.apache.nutch.util.WinLocalFileSystem</value>
<description>Enables patch for issue HADOOP-7682 on Windows
</description>
</property>