Nutch и HBase для производства

В настоящее время я использую Nutch 2.2.1 и HBase 0.90.4. Я ожидаю около 300K URL-адресов из примерно 10 URL в семени. Я уже столько сгенерировал при использовании Nutch 1.6. Поскольку я хочу манипулировать данными, я предпочел пойти по маршруту Nutch 2.2.1 + HBase. Но я получаю всевозможные странные ошибки, и сканирование, похоже, не прогрессирует.

Различные ошибки, такие как:

  1. zookeeper.ClientCnxn - сеанс для нулевого сервера, непредвиденная ошибка, закрытие соединения с сокетом и попытка переподключения. - Я получаю это чаще

  2. bin/crawl: строка 164: kill - я получаю эту ошибку с шага выборки, и сканирование внезапно прекращается.

  3. Ошибка разбора RSS

Я использую команду сканирования "все в одном" - bin/crawl urls 1 http://localhost:8983/solr/ 10

<crawl> <seed-dir> <crawl-id> <solr-url> <number of rounds>

Пожалуйста, предложите, где я иду не так. У меня установлена Nutch 2.2.1 и установлена HBase (автономная версия) согласно Руководству по быстрому запуску, рекомендованному с сайта Nutch. Я не уверен, что следующей настройки HBase 0.90.4 из Краткого руководства по началу работы достаточно для получения просканированных URL-адресов 300K.


Редактирование # 1: Ошибка синтаксического анализа RSS - информация журнала

Ошибка tika.TikaParser - Ошибка разбора http: //www.###.###.##/###/abc.xml org.apache.tika.exception.TikaException: ошибка синтаксического анализа RSS

0 ответов

Другие вопросы по тегам