Описание тега nutch
Nutch - это хорошо продуманный, готовый к работе веб-сканер. Nutch обеспечивает тонкую настройку, полагаясь на структуры данных Apache Hadoop™, которые отлично подходят для пакетной обработки.
1
ответ
Сканирование и индексирование определенных ссылок на определенной странице
Я новичок, поэтому я только начинаю свой путь. Я хочу сканировать определенную страницу и под этой страницей, я хочу сканировать определенные ссылки. например Я хочу сканировать только http://nutch.apache.org/downloads.html Под этой страницей я прос…
13 дек '13 в 06:30
1
ответ
Использование HtmlParseFilter с анализатором Tika в Nutch 1.5
Что я хотел бы сделать: написать плагин Nutch, который получает проанализированные данные с каждой просканированной страницы. я знаю это HtmlParseFilter делает то, что мне нужно для HTML-страниц, но я также хочу обрабатывать другие типы контента. Ко…
07 ноя '12 в 02:05
1
ответ
События, запускающие загрузку контента на временной шкале Facebook
Я работаю над проектом модификации Apache Nutch. Мы уже поменяли оригинальный модуль Nutch на наш, построенный с использованием HtmlUnit. Мне нужно загрузить весь сайт пользователя Facebook (например, http://www.facebook.com/profile.php?id=100002517…
18 сен '12 в 14:43
2
ответа
Ошибка при использовании solr и Интегрирование nutch и solr(HTTP ERROR 500)
У меня установлена Linux Ubuntu 12.04, и я пытаюсь установить NUTCH 1.5.1 и Solr 3.6.1 и интегрировать тему вместе, чтобы сканировать начальные URL.Я использую этот учебник, чтобы получить эту работу.Я выполнил шаги до 3.2 и перешел к шагу 4, и я …
24 июл '12 в 14:40
0
ответов
Nutch - Как разбить HTML-страницу на несколько страниц с собственным URL?
У меня есть страница ( http://www.example.com/content), которая содержит несколько блоков <div> <h1 id="titleOne">First title</h1> Here is custom content <h1 id="titleTwo">Second title</h1> Here is custom content for pa…
21 ноя '14 в 13:12
1
ответ
Обновите Nutch для получения родительского элемента каждого URL-адреса.
Когда я запускаю сканер Apache Nutch 1.4, я хочу сохранить дополнительную информацию. Я хочу хранить родителя каждого URL. Например, я хочу сканировать страницу a.html, которая имеет 2 ссылки на b.html и c.html. Поэтому, когда я сканирую a.html, я д…
22 май '12 в 09:51
2
ответа
Использование Nutch для сканирования указанного списка URL
У меня есть один миллион URL-адресов для получения. Я использую этот список как семена орехов и использую базовую команду сканирования Nutch для их извлечения. Тем не менее, я считаю, что Nutch автоматически выбирает URL, которых нет в списке. Я уст…
06 фев '12 в 00:32
0
ответов
Nutch плагин, который сканирует по определенным ключевым словам
Есть ли какой-нибудь плагин Nutch, который помогает мне сканировать только те веб-страницы, которые содержат определенные ключевые слова, которые могут быть установлены пользователем Nutch? Например, я хочу сканировать только веб-страницы, содержащи…
30 янв '14 в 18:15
2
ответа
Проблемы с активацией плагинов
Я пытаюсь активировать плагин заголовков в Nutch 1.8, но как-то не получается. Вот части моего nutch-site.xml: <property> <name>plugin.includes</name> <value>protocol-http|urlfilter-regex|parse-(html|tika|metatags|headings)|i…
10 июл '14 в 20:51
1
ответ
Индексирование разных типов записей в одной единственной схеме
Я борюсь с общим представлением о том, как (если возможно) можно индексировать несколько разных типов записей в одном ядре Solr. Несколько записей означает, что они имеют разные уникальные ключи. Мы склонны хотеть использовать одно ядро, потому что …
27 июн '13 в 19:39
2
ответа
Документация для бина / ореха эластичного индекса
Существует много документации и примеров использования bin/nutch solrindex команда, но bin/nutch elasticindex Команде не хватает покрытия. Я изо всех сил пытаюсь объединить экземпляр Nutch 2.2.1 с Elasticsearch 0.90.2. Я пытался использовать этот пл…
08 июл '13 в 09:38
0
ответов
Nutch: индексатор: java.io.IOException: работа не удалась
Когда я выполняю эту командную строку: ahmed@ubuntu:~/apache-nutch-1.9/bin$ ./crawl seeds fir localhost:8983/solr 1 Я получил это исключение ошибок в конце выполнения: Indexer: java.io.IOException: Job failed! at org.apache.hadoop.mapred.JobClient.r…
13 мар '15 в 15:00
1
ответ
Невозможно проанализировать содержимое файлов FLV и EPUB с помощью NUTCH
Я работаю с Apache Nutch и Solr, мое требование состоит в том, чтобы проанализировать содержимое файлов FLV и EPUB, я использую команду ниже для анализа файлов bin/nutch crawl urls -solr http://localhost:8983/solr/ Я сохранил файл URL в папке URL-ад…
13 май '13 в 08:46
1
ответ
Nutch 1.7 JAVA_HOME не установлен Ошибка
Я экспериментирую с Apache Nutch 1.7 и Solr на Ubuntu 14.04 x64 (AMD) LTS и при попытке запустить Nutch выдает следующее сообщение об ошибке: Ошибка: JAVA_HOME не установлен. Но когда я набираю на терминале команду echo $JAVA_HOME, она дает мне след…
13 авг '14 в 14:41
1
ответ
Nutch2.0 с кассандрой
Exception in thread "main" org.apache.gora.util.GoraException: java.io.IOException at org.apache.gora.store.DataStoreFactory.createDataStore(DataStoreFactory.java:167) at org.apache.gora.store.DataStoreFactory.createDataStore(DataStoreFactory.java:1…
17 сен '12 в 10:44
2
ответа
Какие классы Java связаны с этими командами NUTCH?
У меня есть следующие команды, которые я собрал вместе. Он запускает Nutch и отправляет результаты в Solr. Я прочитал, что они соответствуют методам Java, которые я хотел бы использовать для программного запуска. Какие классы Java соответствуют этим…
22 дек '10 в 16:01
2
ответа
Как включить / отключить индексацию на веб-странице
Я использую Nutch 1.6 и Solr 4.3 на Ubuntu Server 12.04. Я хочу включить и выключить индексацию контента. Есть ли способ указать это поведение на моих HTML-страницах, чтобы Solr мог вести себя соответственно? Например, при использовании Google Searc…
17 май '13 в 09:55
1
ответ
Отключить проверку robots.txt в Nutch
Я хочу отключить проверку robots.txt в Nutch и сканировать все с веб-сайтов.Disable означает, что перед загрузкой или анализом любого веб-сайта пропустите проверку robot.txt. Это возможно?
15 фев '13 в 14:40
2
ответа
Nutch regex не ползет так, как я хочу
Хорошо, я уже спрашивал об этом, но, думаю, я не спрашивал, как ожидает стекоперемещение. Надеюсь, на этот раз мне повезет больше, и я получу ответ. Я пытаюсь запустить Nutch для сканирования этого сайта: http://www.tigerdirect.com/ Я хочу, чтобы он…
19 апр '13 в 16:46
1
ответ
Nutch 2.0 выбирает страницу несколько раз, когда работа не удалась
Я использую MySQL в качестве хранилища данных с Nutch. Сбой задания при сканировании некоторых сайтов. Получив следующее исключение и выйдите изнутри при достижении этой страницы: http://www.appchina.com/users.html Exception in thread "main" java.la…
27 авг '12 в 08:06