Nutch - это хорошо продуманный, готовый к работе веб-сканер. Nutch обеспечивает тонкую настройку, полагаясь на структуры данных Apache Hadoop™, которые отлично подходят для пакетной обработки.
1 ответ

Сканирование и индексирование определенных ссылок на определенной странице

Я новичок, поэтому я только начинаю свой путь. Я хочу сканировать определенную страницу и под этой страницей, я хочу сканировать определенные ссылки. например Я хочу сканировать только http://nutch.apache.org/downloads.html Под этой страницей я прос…
13 дек '13 в 06:30
1 ответ

Использование HtmlParseFilter с анализатором Tika в Nutch 1.5

Что я хотел бы сделать: написать плагин Nutch, который получает проанализированные данные с каждой просканированной страницы. я знаю это HtmlParseFilter делает то, что мне нужно для HTML-страниц, но я также хочу обрабатывать другие типы контента. Ко…
07 ноя '12 в 02:05
1 ответ

События, запускающие загрузку контента на временной шкале Facebook

Я работаю над проектом модификации Apache Nutch. Мы уже поменяли оригинальный модуль Nutch на наш, построенный с использованием HtmlUnit. Мне нужно загрузить весь сайт пользователя Facebook (например, http://www.facebook.com/profile.php?id=100002517…
2 ответа

Ошибка при использовании solr и Интегрирование nutch и solr(HTTP ERROR 500)

У меня установлена ​​Linux Ubuntu 12.04, и я пытаюсь установить NUTCH 1.5.1 и Solr 3.6.1 и интегрировать тему вместе, чтобы сканировать начальные URL.Я использую этот учебник, чтобы получить эту работу.Я выполнил шаги до 3.2 и перешел к шагу 4, и я …
24 июл '12 в 14:40
0 ответов

Nutch - Как разбить HTML-страницу на несколько страниц с собственным URL?

У меня есть страница ( http://www.example.com/content), которая содержит несколько блоков <div> <h1 id="titleOne">First title</h1> Here is custom content <h1 id="titleTwo">Second title</h1> Here is custom content for pa…
21 ноя '14 в 13:12
1 ответ

Обновите Nutch для получения родительского элемента каждого URL-адреса.

Когда я запускаю сканер Apache Nutch 1.4, я хочу сохранить дополнительную информацию. Я хочу хранить родителя каждого URL. Например, я хочу сканировать страницу a.html, которая имеет 2 ссылки на b.html и c.html. Поэтому, когда я сканирую a.html, я д…
22 май '12 в 09:51
2 ответа

Использование Nutch для сканирования указанного списка URL

У меня есть один миллион URL-адресов для получения. Я использую этот список как семена орехов и использую базовую команду сканирования Nutch для их извлечения. Тем не менее, я считаю, что Nutch автоматически выбирает URL, которых нет в списке. Я уст…
06 фев '12 в 00:32
0 ответов

Nutch плагин, который сканирует по определенным ключевым словам

Есть ли какой-нибудь плагин Nutch, который помогает мне сканировать только те веб-страницы, которые содержат определенные ключевые слова, которые могут быть установлены пользователем Nutch? Например, я хочу сканировать только веб-страницы, содержащи…
30 янв '14 в 18:15
2 ответа

Проблемы с активацией плагинов

Я пытаюсь активировать плагин заголовков в Nutch 1.8, но как-то не получается. Вот части моего nutch-site.xml: <property> <name>plugin.includes</name> <value>protocol-http|urlfilter-regex|parse-(html|tika|metatags|headings)|i…
10 июл '14 в 20:51
1 ответ

Индексирование разных типов записей в одной единственной схеме

Я борюсь с общим представлением о том, как (если возможно) можно индексировать несколько разных типов записей в одном ядре Solr. Несколько записей означает, что они имеют разные уникальные ключи. Мы склонны хотеть использовать одно ядро, потому что …
27 июн '13 в 19:39
2 ответа

Документация для бина / ореха эластичного индекса

Существует много документации и примеров использования bin/nutch solrindex команда, но bin/nutch elasticindex Команде не хватает покрытия. Я изо всех сил пытаюсь объединить экземпляр Nutch 2.2.1 с Elasticsearch 0.90.2. Я пытался использовать этот пл…
08 июл '13 в 09:38
0 ответов

Nutch: индексатор: java.io.IOException: работа не удалась

Когда я выполняю эту командную строку: ahmed@ubuntu:~/apache-nutch-1.9/bin$ ./crawl seeds fir localhost:8983/solr 1 Я получил это исключение ошибок в конце выполнения: Indexer: java.io.IOException: Job failed! at org.apache.hadoop.mapred.JobClient.r…
13 мар '15 в 15:00
1 ответ

Невозможно проанализировать содержимое файлов FLV и EPUB с помощью NUTCH

Я работаю с Apache Nutch и Solr, мое требование состоит в том, чтобы проанализировать содержимое файлов FLV и EPUB, я использую команду ниже для анализа файлов bin/nutch crawl urls -solr http://localhost:8983/solr/ Я сохранил файл URL в папке URL-ад…
13 май '13 в 08:46
1 ответ

Nutch 1.7 JAVA_HOME не установлен Ошибка

Я экспериментирую с Apache Nutch 1.7 и Solr на Ubuntu 14.04 x64 (AMD) LTS и при попытке запустить Nutch выдает следующее сообщение об ошибке: Ошибка: JAVA_HOME не установлен. Но когда я набираю на терминале команду echo $JAVA_HOME, она дает мне след…
13 авг '14 в 14:41
1 ответ

Nutch2.0 с кассандрой

Exception in thread "main" org.apache.gora.util.GoraException: java.io.IOException at org.apache.gora.store.DataStoreFactory.createDataStore(DataStoreFactory.java:167) at org.apache.gora.store.DataStoreFactory.createDataStore(DataStoreFactory.java:1…
17 сен '12 в 10:44
2 ответа

Какие классы Java связаны с этими командами NUTCH?

У меня есть следующие команды, которые я собрал вместе. Он запускает Nutch и отправляет результаты в Solr. Я прочитал, что они соответствуют методам Java, которые я хотел бы использовать для программного запуска. Какие классы Java соответствуют этим…
22 дек '10 в 16:01
2 ответа

Как включить / отключить индексацию на веб-странице

Я использую Nutch 1.6 и Solr 4.3 на Ubuntu Server 12.04. Я хочу включить и выключить индексацию контента. Есть ли способ указать это поведение на моих HTML-страницах, чтобы Solr мог вести себя соответственно? Например, при использовании Google Searc…
17 май '13 в 09:55
1 ответ

Отключить проверку robots.txt в Nutch

Я хочу отключить проверку robots.txt в Nutch и сканировать все с веб-сайтов.Disable означает, что перед загрузкой или анализом любого веб-сайта пропустите проверку robot.txt. Это возможно?
15 фев '13 в 14:40
2 ответа

Nutch regex не ползет так, как я хочу

Хорошо, я уже спрашивал об этом, но, думаю, я не спрашивал, как ожидает стекоперемещение. Надеюсь, на этот раз мне повезет больше, и я получу ответ. Я пытаюсь запустить Nutch для сканирования этого сайта: http://www.tigerdirect.com/ Я хочу, чтобы он…
19 апр '13 в 16:46
1 ответ

Nutch 2.0 выбирает страницу несколько раз, когда работа не удалась

Я использую MySQL в качестве хранилища данных с Nutch. Сбой задания при сканировании некоторых сайтов. Получив следующее исключение и выйдите изнутри при достижении этой страницы: http://www.appchina.com/users.html Exception in thread "main" java.la…
27 авг '12 в 08:06