Описание тега nutch

Описание тега Вопросы с тегом

Nutch - это хорошо продуманный, готовый к работе веб-сканер. Nutch обеспечивает тонкую настройку, полагаясь на структуры данных Apache Hadoop™, которые отлично подходят для пакетной обработки.

1 ответ

Сканирование и индексирование определенных ссылок на определенной странице

Я новичок, поэтому я только начинаю свой путь. Я хочу сканировать определенную страницу и под этой страницей, я хочу сканировать определенные ссылки. например Я хочу сканировать только http://nutch.apache.org/downloads.html Под этой страницей я прос…

13 дек '13 в 06:30

1 ответ

Использование HtmlParseFilter с анализатором Tika в Nutch 1.5

Что я хотел бы сделать: написать плагин Nutch, который получает проанализированные данные с каждой просканированной страницы. я знаю это HtmlParseFilter делает то, что мне нужно для HTML-страниц, но я также хочу обрабатывать другие типы контента. Ко…

java nutch

07 ноя '12 в 02:05

1 ответ

События, запускающие загрузку контента на временной шкале Facebook

Я работаю над проектом модификации Apache Nutch. Мы уже поменяли оригинальный модуль Nutch на наш, построенный с использованием HtmlUnit. Мне нужно загрузить весь сайт пользователя Facebook (например, http://www.facebook.com/profile.php?id=100002517…

facebook htmlunit nutch facebook-timeline javascript-events

18 сен '12 в 14:43

2 ответа

Ошибка при использовании solr и Интегрирование nutch и solr(HTTP ERROR 500)

У меня установлена Linux Ubuntu 12.04, и я пытаюсь установить NUTCH 1.5.1 и Solr 3.6.1 и интегрировать тему вместе, чтобы сканировать начальные URL.Я использую этот учебник, чтобы получить эту работу.Я выполнил шаги до 3.2 и перешел к шагу 4, и я …

solr web-crawler integration nutch

24 июл '12 в 14:40

0 ответов

Nutch - Как разбить HTML-страницу на несколько страниц с собственным URL?

У меня есть страница ( http://www.example.com/content), которая содержит несколько блоков <div> <h1 id="titleOne">First title</h1> Here is custom content <h1 id="titleTwo">Second title</h1> Here is custom content for pa…

parsing solr web-crawler nutch

21 ноя '14 в 13:12

1 ответ

Обновите Nutch для получения родительского элемента каждого URL-адреса.

Когда я запускаю сканер Apache Nutch 1.4, я хочу сохранить дополнительную информацию. Я хочу хранить родителя каждого URL. Например, я хочу сканировать страницу a.html, которая имеет 2 ссылки на b.html и c.html. Поэтому, когда я сканирую a.html, я д…

java nutch

22 май '12 в 09:51

2 ответа

Использование Nutch для сканирования указанного списка URL

У меня есть один миллион URL-адресов для получения. Я использую этот список как семена орехов и использую базовую команду сканирования Nutch для их извлечения. Тем не менее, я считаю, что Nutch автоматически выбирает URL, которых нет в списке. Я уст…

web-crawler nutch

06 фев '12 в 00:32

0 ответов

Nutch плагин, который сканирует по определенным ключевым словам

Есть ли какой-нибудь плагин Nutch, который помогает мне сканировать только те веб-страницы, которые содержат определенные ключевые слова, которые могут быть установлены пользователем Nutch? Например, я хочу сканировать только веб-страницы, содержащи…

nutch

30 янв '14 в 18:15

2 ответа

Проблемы с активацией плагинов

plugins nutch

10 июл '14 в 20:51

1 ответ

Индексирование разных типов записей в одной единственной схеме

Я борюсь с общим представлением о том, как (если возможно) можно индексировать несколько разных типов записей в одном ядре Solr. Несколько записей означает, что они имеют разные уникальные ключи. Мы склонны хотеть использовать одно ядро, потому что …

solr nutch unique-key

27 июн '13 в 19:39

2 ответа

Документация для бина / ореха эластичного индекса

Существует много документации и примеров использования bin/nutch solrindex команда, но bin/nutch elasticindex Команде не хватает покрытия. Я изо всех сил пытаюсь объединить экземпляр Nutch 2.2.1 с Elasticsearch 0.90.2. Я пытался использовать этот пл…

elasticsearch search solr nutch

08 июл '13 в 09:38

0 ответов

Nutch: индексатор: java.io.IOException: работа не удалась

Когда я выполняю эту командную строку: ahmed@ubuntu:~/apache-nutch-1.9/bin$ ./crawl seeds fir localhost:8983/solr 1 Я получил это исключение ошибок в конце выполнения: Indexer: java.io.IOException: Job failed! at org.apache.hadoop.mapred.JobClient.r…

java apache hadoop solr nutch

13 мар '15 в 15:00

1 ответ

Невозможно проанализировать содержимое файлов FLV и EPUB с помощью NUTCH

Я работаю с Apache Nutch и Solr, мое требование состоит в том, чтобы проанализировать содержимое файлов FLV и EPUB, я использую команду ниже для анализа файлов bin/nutch crawl urls -solr http://localhost:8983/solr/ Я сохранил файл URL в папке URL-ад…

linux parsing solr web-crawler nutch

13 май '13 в 08:46

1 ответ

Nutch 1.7 JAVA_HOME не установлен Ошибка

Я экспериментирую с Apache Nutch 1.7 и Solr на Ubuntu 14.04 x64 (AMD) LTS и при попытке запустить Nutch выдает следующее сообщение об ошибке: Ошибка: JAVA_HOME не установлен. Но когда я набираю на терминале команду echo $JAVA_HOME, она дает мне след…

apache web-crawler nutch java-home

13 авг '14 в 14:41

1 ответ

Nutch2.0 с кассандрой

Exception in thread "main" org.apache.gora.util.GoraException: java.io.IOException at org.apache.gora.store.DataStoreFactory.createDataStore(DataStoreFactory.java:167) at org.apache.gora.store.DataStoreFactory.createDataStore(DataStoreFactory.java:1…

eclipse cassandra nutch gora

17 сен '12 в 10:44

2 ответа

Какие классы Java связаны с этими командами NUTCH?

У меня есть следующие команды, которые я собрал вместе. Он запускает Nutch и отправляет результаты в Solr. Я прочитал, что они соответствуют методам Java, которые я хотел бы использовать для программного запуска. Какие классы Java соответствуют этим…

java solr nutch

22 дек '10 в 16:01

2 ответа

Как включить / отключить индексацию на веб-странице

Я использую Nutch 1.6 и Solr 4.3 на Ubuntu Server 12.04. Я хочу включить и выключить индексацию контента. Есть ли способ указать это поведение на моих HTML-страницах, чтобы Solr мог вести себя соответственно? Например, при использовании Google Searc…

solr nutch apache-tika

17 май '13 в 09:55

1 ответ

Отключить проверку robots.txt в Nutch

Я хочу отключить проверку robots.txt в Nutch и сканировать все с веб-сайтов.Disable означает, что перед загрузкой или анализом любого веб-сайта пропустите проверку robot.txt. Это возможно?

web-crawler nutch

15 фев '13 в 14:40

2 ответа

Nutch regex не ползет так, как я хочу

Хорошо, я уже спрашивал об этом, но, думаю, я не спрашивал, как ожидает стекоперемещение. Надеюсь, на этот раз мне повезет больше, и я получу ответ. Я пытаюсь запустить Nutch для сканирования этого сайта: http://www.tigerdirect.com/ Я хочу, чтобы он…

regex search-engine nutch

19 апр '13 в 16:46

1 ответ

Nutch 2.0 выбирает страницу несколько раз, когда работа не удалась

Я использую MySQL в качестве хранилища данных с Nutch. Сбой задания при сканировании некоторых сайтов. Получив следующее исключение и выйдите изнутри при достижении этой страницы: http://www.appchina.com/users.html Exception in thread "main" java.la…

apache web-crawler nutch

27 авг '12 в 08:06