Apache Nutch не сканирует все сайты в ссылках
Я настроил Apache Nutch 2.3.1 с экосистемой Hadoop/Hbase. Ниже приведены сведения о конфигурации.
<configuration>
<property>
<name>db.score.link.internal</name>
<value>5.0</value>
</property>
<property>
<name>enable.domain.check</name>
<value>true</value>
</property>
<property>
<name>http.timeout</name>
<value>30000</value>
</property>
<property>
<name>generate.max.count</name>
<value>200</value>
</property>
<property>
<name>storage.data.store.class</name>
<value>org.apache.gora.hbase.store.HBaseStore</value>
</property>
<property>
<name>http.agent.name</name>
<value>My Private Spider Bot</value>
</property>
<property>
<name>http.robots.agents</name>
<value>My Private Spider Bot</value>
</property>
<property>
<name>plugin.includes</name>
<value>protocol-http|indexer-solr|urlfilter-regex|parse-(html|tika)|index-(basic|more)|urlnormalizer-(pass|regex|basic)|scoring-opic</value>
</property>
</configuration>
Есть 3 вычислительных узла, на которых выполняется задание Nutch. Теперь проблема заключается в том, что после использования 5000 доменов в качестве начального начального значения Nutch извлекает только несколько доменов, а также появляется множество новых доменов, где выбирается только один документ. Я хочу, чтобы Nutch Fairy выбрал все домены. Также я дал оценку 5 для ссылок, но мой твикинг показывает, что это свойство вообще не влияет.
Я просканировал данные после обработки и обнаружил, что в базе данных (hbase) всего 14000 доменов, и из них более 50% доменов не сканируются Nutch (их документы имеют код состояния выборки 0x01). Почему так. Как изменить Nutch для рассмотрения новых доменов, т. Е. Это должно быть справедливо для всех доменов как-то для получения.
1 ответ
Как дела ползать? В bin/crawl есть функция определения глубины (ссылка следующая). Вы можете добиться хороших результатов, используя аргументы bin / nutch, и в зависимости от приблизительного общего размера желаемых сайтов, вы должны запускать их как минимум один раз на 3000 страниц. Это означает, что если у вас есть 18000 страниц (включая страницы со ссылками), вы должны запустить его 1800/3= 6 раз, чтобы получить полные данные.