Настройка и запуск Apache Nutch 2.2.1
Я пытаюсь настроить и запустить Apache Nutch 2.2.1 на моем рабочем столе Ubuntu. Как новичок, я нашел некоторые части учебника, предоставленного официальным сайтом, немного запутанными.
Если бы я запустил его на своем рабочем столе, правильно ли перейти на
$NUTCH_HOME/runtime/local
запустить команду bin/nutch?
Где я должен положить файл с именем URL? (в котором есть начальный список seed.txt)
$NUTCH_HOME/runtime/local
Если я нахожусь в правильном каталоге, у меня была эта проблема при выполнении команды
bin/nutch crawl urls -dir crawl -depth 1
InjectorJob: использование класса org.apache.gora.memory.store.MemStore в качестве класса хранения Gora. InjectorJob: общее количество URL-адресов, отклоненных фильтрами: 0 InjectorJob: общее количество URL-адресов, введенных после нормализации и фильтрации: 0 Исключение в потоке "main" java.lang.RuntimeException: job failed: name=generate: null, jobid=job_local1613558008_0002 в org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:54) в org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:199) в org.apache.nutch.crawl.Crawler.runTool(сканер.java:68) в org.apache.nutch.crawl.Crawler.run(Crawler.java:152) в org.apache.nutch.crawl.Crawler.run(Crawler.java:250) в org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) в org.apache.nutch.crawl.Crawler.main(Crawler.java:257)
Я следую учебному пособию 1 http://wiki.apache.org/nutch/NutchTutorial до версии 3.3 и еще не настроил GORA Hbase и т. Д. Похоже, что эта проблема возникает из-за того, что инжектор не получил URL-адреса. кто-нибудь знает, как решить эту проблему? Большое спасибо!
2 ответа
Ты должен пойти в $NUTCH_HOME/runtime/deploy
запустить команду
Если вы хотите интегрироваться с GORA и Hbase, упомяните об этом в Nutchsite.xml
<property>
<name>storage.data.store.class</name>
<value>org.apache.gora.hbase.store.HBaseStore</value>
<description>Default class for storing data</description>
</property>