Nutch и HBase для производства
В настоящее время я использую Nutch 2.2.1 и HBase 0.90.4. Я ожидаю около 300K URL-адресов из примерно 10 URL в семени. Я уже столько сгенерировал при использовании Nutch 1.6. Поскольку я хочу манипулировать данными, я предпочел пойти по маршруту Nutch 2.2.1 + HBase. Но я получаю всевозможные странные ошибки, и сканирование, похоже, не прогрессирует.
Различные ошибки, такие как:
zookeeper.ClientCnxn - сеанс для нулевого сервера, непредвиденная ошибка, закрытие соединения с сокетом и попытка переподключения. - Я получаю это чаще
bin/crawl: строка 164: kill - я получаю эту ошибку с шага выборки, и сканирование внезапно прекращается.
Ошибка разбора RSS
Я использую команду сканирования "все в одном" - bin/crawl urls 1 http://localhost:8983/solr/ 10
<crawl> <seed-dir> <crawl-id> <solr-url> <number of rounds>
Пожалуйста, предложите, где я иду не так. У меня установлена Nutch 2.2.1 и установлена HBase (автономная версия) согласно Руководству по быстрому запуску, рекомендованному с сайта Nutch. Я не уверен, что следующей настройки HBase 0.90.4 из Краткого руководства по началу работы достаточно для получения просканированных URL-адресов 300K.
Редактирование # 1: Ошибка синтаксического анализа RSS - информация журнала
Ошибка tika.TikaParser - Ошибка разбора http: //www.###.###.##/###/abc.xml org.apache.tika.exception.TikaException: ошибка синтаксического анализа RSS