Apache Nutch не сканирует все сайты в ссылках

Я настроил Apache Nutch 2.3.1 с экосистемой Hadoop/Hbase. Ниже приведены сведения о конфигурации.

<configuration>

<property>
  <name>db.score.link.internal</name>
  <value>5.0</value>
</property>

<property>
  <name>enable.domain.check</name>
  <value>true</value>
</property>

<property>
  <name>http.timeout</name>
  <value>30000</value>
</property>

<property>
  <name>generate.max.count</name>
  <value>200</value>
</property>

<property>
    <name>storage.data.store.class</name>
    <value>org.apache.gora.hbase.store.HBaseStore</value>
</property>


<property>
    <name>http.agent.name</name>
    <value>My Private Spider Bot</value>
</property>

<property>
    <name>http.robots.agents</name>
    <value>My Private Spider Bot</value>
    </property>
<property>
        <name>plugin.includes</name>
    <value>protocol-http|indexer-solr|urlfilter-regex|parse-(html|tika)|index-(basic|more)|urlnormalizer-(pass|regex|basic)|scoring-opic</value>    
</property>

</configuration>

Есть 3 вычислительных узла, на которых выполняется задание Nutch. Теперь проблема заключается в том, что после использования 5000 доменов в качестве начального начального значения Nutch извлекает только несколько доменов, а также появляется множество новых доменов, где выбирается только один документ. Я хочу, чтобы Nutch Fairy выбрал все домены. Также я дал оценку 5 для ссылок, но мой твикинг показывает, что это свойство вообще не влияет.

Я просканировал данные после обработки и обнаружил, что в базе данных (hbase) всего 14000 доменов, и из них более 50% доменов не сканируются Nutch (их документы имеют код состояния выборки 0x01). Почему так. Как изменить Nutch для рассмотрения новых доменов, т. Е. Это должно быть справедливо для всех доменов как-то для получения.

1 ответ

Как дела ползать? В bin/crawl есть функция определения глубины (ссылка следующая). Вы можете добиться хороших результатов, используя аргументы bin / nutch, и в зависимости от приблизительного общего размера желаемых сайтов, вы должны запускать их как минимум один раз на 3000 страниц. Это означает, что если у вас есть 18000 страниц (включая страницы со ссылками), вы должны запустить его 1800/3= 6 раз, чтобы получить полные данные.

Другие вопросы по тегам