Описание тега nutch2

Вопросы с тегом

1 ответ

Apache Nutch не сканирует все сайты в ссылках

Я настроил Apache Nutch 2.3.1 с экосистемой Hadoop/Hbase. Ниже приведены сведения о конфигурации. <configuration> <property> <name>db.score.link.internal</name> <value>5.0</value> </property> <property&gt…

web-crawler nutch nutch2

08 май '18 в 07:30

1 ответ

Функция объединителя в Apache Hadoop с Gora

У меня есть простой Hadoop, Nutch 2.x, кластер Hbase. Я должен написать работу MR, которая найдет некоторую статистику. Это двухступенчатая работа, т. Е. Я думаю, что мне также нужна функция объединителя. В простых заданиях Hadoop это не большая про…

java hadoop nutch gora nutch2

02 янв '19 в 09:17

0 ответов

Похвалы Nutch кажутся успешными, но результаты dir еще пусты

Я сделал все в настройке) http://amac4.blogspot.com/2013/07/configuring-nutch-to-crawl-urls.html) но после того, как я попробую команду crawl, мой каталог результатов все еще пуст, хотя в учебном пособии написано "В каталоге, который вы предоставите…

linux web-crawler cygwin nutch nutch2

08 фев '19 в 03:15

1 ответ

Apache Nutch 2.3.1, увеличение памяти редуктора

Я настроил кластер небольшого размера, если Hadoop с Hbase для Nutch 2.3.1, Версия hadoop - 2.7.7, а Hbase - 0.98. Я настроил задание hadoop, и теперь мне нужно установить память для задачи редуктора в классе драйверов. Я узнал, что в простых задани…

hadoop web-crawler nutch nutch2

12 фев '19 в 05:27

1 ответ

Apache Nutch 2.3.1 извлекает документы определенного типа MIME

Я настроил Apache Nutch 2.3.1 с экосистемой hadoop/hbase. Я должен сканировать определенные документы, т.е. документы, имеющие только текстовое содержание. Я нашел regex-urlfilter.txt для исключения MIME, но не смог найти никакой опции для указания …

apache web-crawler nutch nutch2 mime-filter

15 мар '18 в 08:51

1 ответ

График времени, чтобы посетить страницу снова

Я настроил Nutch 2.3.1 с экосистемой Hadoop/Hbase. У меня есть несколько сотен доменов, которые я хочу получить. Я забрал многие из них до сих пор. Мне любопытно, что когда Nutch снова посетит уже извлеченный документ и повторно загрузит его, если о…

apache web-crawler nutch nutch2

04 май '18 в 07:28

0 ответов

Алгоритм оценки на основе домена для Apache Nutch 2.3.1

Я настроил экосистему Hadoop/Hbase и Nutch 2.3.1 для сканирования нескольких доменов из Интернета. Crawler не ограничивается только семенами и будет расти со временем (из исходящих ссылок). Я должен настроить рейтинг в соответствии со своими потребн…

java hadoop mapreduce nutch nutch2

13 ноя '18 в 09:52

0 ответов

Подтвердите посещения Nutch 2.x на веб-сайте в фиксированные дни с включенными выходными ссылками

Мы создали Nutch 2.3.1 с Hadoop 2.x а также HBase 0.98, Это кластер небольшого размера. На начальном этапе включено около 5000 доменов, и включены внешние ссылки, т. Е. Количество доменов со временем будет увеличиваться при переходе по исходящим ссы…

web-crawler hbase hadoop2 nutch nutch2

10 янв '19 в 05:42

1 ответ

Уловка обработки страниц раздела Apache Nutch

Я настроил Nutch 2.3.1 с экосистемой Hadoop/Hbase. Идея состоит в том, чтобы сканировать и индексировать страницы истории в основном. Для этого я подготовил семя некоторых доменов. Теперь я сталкиваюсь с некоторой логической проблемой в Nutch, котор…

solr web-crawler nutch nutch2

03 авг '18 в 09:44

1 ответ

Найти количество уже существующих документов в solr с заданием solrindexing в nutch

В основном, в работе solrindex мы можем рассчитать количество документов, которые были обновлены в solr, и количество документов, которые были проиндексированы как новые документы.

solr nutch2

07 ноя '18 в 11:11

1 ответ

Ошибка Apache Nutch SolrIndexer в режиме SolrCloud

Я настроил Apache Nutch 2.3.1 и просканировал несколько сайтов. Я должен проиндексировать эти документы в Solr (6.6.3), который работает в облачном режиме. Когда я выполняю команду solrindex, я получаю следующее исключение 2018-05-02 13:10:40,679 IN…

java solr nutch solrcloud nutch2

02 май '18 в 09:07

0 ответов

Apache Nutch 2.3.1 тайм-аут сокращения карты произошел, обновляя счет

У меня есть 4 системных кластера, и Apache Nutch 2.3.1 настроен для сканирования нескольких веб-сайтов. После ползания, я должен немного изменить их счет по какой-то пользовательской работе. В работе маппер просто объединяет документы на основе доме…

java hadoop mapreduce nutch nutch2

20 фев '19 в 03:59

1 ответ

Apache Nutch 2.3.1 Fetcher дает исключение Invalid uri

Я настроил Apache Nutch 2.3.1 с экосистемой Hadoop. Я должен получить несколько веб-сайтов, написанных на арабском языке. Nutch дает исключение для нескольких URL во время выборки. Ниже приведен пример исключения java.lang.IllegalArgumentException: …

java exception web-crawler nutch nutch2

20 мар '18 в 08:00

1 ответ

Проблема парсинга заголовка Apache Nutch для языковых сайтов

Я настроил Apache Nutch 2.3.1 с Hadoop 2.7.5 и Hbase 0.98. Я должен сканировать некоторые сайты на урду. Я использую парсеры по умолчанию, т. Е. HTML, Тика. У некоторых документов есть заголовок на урду, но у некоторых документов есть заголовок на у…

parsing nutch apache-tika nutch2

02 авг '18 в 11:22

1 ответ

Apache Nutch 2.3.1 фильтр не работает

Я настроил Nutch 2.3.1 с полной экосистемой Hadoop/Hbase на небольшом кластере. Мне любопытно по поводу алгоритма оценки, используемого в Nutch. Я нашел и использовал фильтр очков в Nutch. Чтобы найти его, у меня есть контрольная оценка на разных эт…

web-crawler nutch scoring nutch2

09 май '18 в 05:05

0 ответов

Задание инжектора застряло в распределенном режиме, но работает в локальном режиме

Задание инжектора выполняется в локальном режиме, но застревает в распределенном режиме, т.е. карта 0% уменьшает 0%. Я также проверил все демоны и журналы. Все демоны запущены. Пожалуйста, предложите мне какое-нибудь решение.

hadoop2 nutch nutch2

26 июн '18 в 03:42

1 ответ

Apache Nutch 2.3.1 отдает предпочтение начальным доменам в точке выбора

Я настроил apache Nutch 2.3.1 с полной экосистемой Hadoop/Hbase. Я хочу, чтобы мой сканер больше отдавал предпочтение тем доменам, которые заданы в seed в каждой итерации. Согласно моим испытаниям; Он может завершиться в любом направлении, т.е. выбр…

web-crawler nutch giraph nutch2

28 мар '18 в 11:03

0 ответов

Обработка псевдонимов доменов в Apache Nutch 2.3.1

Я настроил Apache Nutch 2.3.1 с экосистемой Hadoop/Hbase. В настоящее время для индексирования платформы используется Apache Solr 6.6.2. Мы обработали с помощью Nutch около 3 миллионов документов и проиндексировали их для поиска. Мы сталкиваемся с п…

solr duplicates lucene nutch nutch2

01 авг '18 в 07:37

1 ответ

Настройка ОЗУ в Nutch

Я использую Nutch 1.10 для сканирования веб-сайтов для своей организации. Я использую систему с 16 ГБ ОЗУ для этого сканирования. На данный момент мой ореховый файл использует только 3-4 ГБ ОЗУ при сканировании данных, и для его завершения требуется…

nutch nutch2

22 янв '19 в 04:53

1 ответ

Apache Nutch алгоритм ранжирования для конкретного языкового контента

Я настроил Nutch 2.3.1 с экосистемой Hadoop/Hbase для сканирования контента на языке урду. Для определения языка я настроил сборщик и нахожу язык на этом этапе. Если в документе недостаточно языка урду (в байтах), я намеренно устанавливаю его статус…

web-crawler nutch nutch2

27 авг '18 в 11:28