Apache Gora - это среда с открытым исходным кодом, которая обеспечивает модель данных в памяти и постоянство для больших данных.
1 ответ

Nutch2.0 с кассандрой

Exception in thread "main" org.apache.gora.util.GoraException: java.io.IOException at org.apache.gora.store.DataStoreFactory.createDataStore(DataStoreFactory.java:167) at org.apache.gora.store.DataStoreFactory.createDataStore(DataStoreFactory.java:1…
17 сен '12 в 10:44
0 ответов

Nutch 2.1 Cassandra Backend генерирует ошибку

Я сделал выбор на Кассандре в качестве бэкенда и начал играть с Nutch. Небольшое подмножество URL-адресов DMOZ (~50 тыс.), Все (ввод, генерация, выборка) работает нормально. Однако после того, как я внедрил весь набор URL-адресов DMOZ (~3,5 МБ) и по…
25 апр '13 в 16:08
0 ответов

scala nutch gora-cassandra - RuntimeException: работа не удалась

Я пытаюсь запустить Nutch и загрузить просканированные данные в Кассандру. У меня есть файл SBT "org.apache.gora" % "gora-cassandra" % "0.3", "org.apache.nutch" % "nutch" % "2.2.1", "com.datastax.cassandra" % "cassandra-driver-core" % "2.1.2" и начи…
09 дек '14 в 13:53
1 ответ

Функция объединителя в Apache Hadoop с Gora

У меня есть простой Hadoop, Nutch 2.x, кластер Hbase. Я должен написать работу MR, которая найдет некоторую статистику. Это двухступенчатая работа, т. Е. Я думаю, что мне также нужна функция объединителя. В простых заданиях Hadoop это не большая про…
02 янв '19 в 09:17
1 ответ

Apache Nutch: FetcherJob создает исключение NoSuchElementException в Горе

Я запускаю Apache Nutch 2.3.1 из коробки, который использует Gora 0.6.1. Я следовал инструкциям здесь: http://wiki.apache.org/nutch/RunNutchInEclipse Он работал нормально с InjectorJob, Сейчас я бегу FetcherJob, а Гора использует MemStore в качестве…
03 окт '16 в 14:49
2 ответа

Настройка и запуск Apache Nutch 2.2.1

Я пытаюсь настроить и запустить Apache Nutch 2.2.1 на моем рабочем столе Ubuntu. Как новичок, я нашел некоторые части учебника, предоставленного официальным сайтом, немного запутанными. Если бы я запустил его на своем рабочем столе, правильно ли пер…
09 дек '14 в 08:27
3 ответа

Веб-сканирование, рубин, питон, кассандра

Мне нужно написать скрипт, который вставит 1 миллион записей с именами пользователей или электронными письмами, сканируя Интернет, в базу данных. Скрипт может быть любого типа, например, python, ruby, php и т. Д. Пожалуйста, дайте мне знать, возможн…
27 дек '10 в 09:16
0 ответов

Nutch и HBase для производства

В настоящее время я использую Nutch 2.2.1 и HBase 0.90.4. Я ожидаю около 300K URL-адресов из примерно 10 URL в семени. Я уже столько сгенерировал при использовании Nutch 1.6. Поскольку я хочу манипулировать данными, я предпочел пойти по маршруту Nut…
03 окт '13 в 21:02
1 ответ

Работа с MongoDB с использованием конфигурации Apache Gora 0.6

Я использую MongoDB в качестве бэкэнда Gora для моей реализации. У меня есть необходимость удалить некоторые документы из MongoDB. Вместо того чтобы писать собственный класс, основанный на Java и MongoDB, я пытаюсь понять, можно ли использовать уже …
09 янв '17 в 11:14
0 ответов

Как получить все ссылки, ссылающиеся на определенную страницу со страницей, используя парсерную работу Nutch

Я использую nutch2.2 и hbase 0.94 и gora 0.4 и когда я выполняю следующие шаги 1.nutch inject seed.txt 2.nutch generate -batchId 231 3.nutch fetch 231 4.nutch parse 231 5.nutch updatedb 231 я получу html контент определенной страницы, скажем ([ http…
01 сен '14 в 13:44
1 ответ

Nutch 2.2.1 + hBase

Я пытаюсь запустить новую версию Apache Nutch для сканирования. Когда я запускаю скрипт /bin/crawl, он терпит неудачу и hadoop.log говорит: java.lang.Exception: java.lang.NoSuchMethodError: org.apache.gora.persistency.Persistent.getSchema()Lorg/apac…
04 июл '13 в 14:23
0 ответов

Невозможно запустить снимок с помощью nutch2.3 на hadoop2.4.0 с использованием gora0.5 и mongodb в качестве внутреннего хранилища данных

Я сталкиваюсь с этой проблемой в течение нескольких дней. Когда я использую hadoop1.2, все работает нормально. Хотя я перехожу к hadoop2.x(hadoop2.4 или hadoop2.5.2), я получаю эту проблему: java.lang.Exception: java.lang.IncompatibleClassChangeErro…
23 ноя '14 в 03:38
1 ответ

Как задать несколько путей ввода для gora avrostore в giraph (или) как заставить giraph читать несколько входных файлов

Как заставить giraph читать данные из нескольких входных путей. Я использую это в gora.properties gora.datastore.default = org.apache.gora.avro.store.Avrostore gora.avrostore.input.path = file: ///path/to/file1.avro,file: ///path/to/file2.avro Но эт…
21 дек '16 в 09:51
1 ответ

Интеграция Nutch- Hbase и Solr с использованием Gora

Я следовал учебнику по nutch2 и успешно интегрировал Nutch с HBase. Моя проблема - когда я сканирую URL, используя следующую команду ./nutch crawl urls/seed.txt abc -depth 50 -topN 50 в runtime/local/bin каталог, Произошла ошибка: Exception in threa…
18 окт '13 в 07:04
1 ответ

Apache Gora через HBase

Мы планируем внедрить хранилище данных на базе HBase. Есть несколько сущностей, у которых есть родительские отношения или другие слова, которые у нас есть. public class Parent { private String name; private List<Dependent> dependents; ... } Со…
13 сен '17 в 11:13
0 ответов

Можно ли использовать Nutch 2.x и Gora с бэкэндом Solr

Ветвь Nutch 2.x gora.properties файл перечисляет Solr как возможный бэкэнд для Nutch, но я не могу найти какую-либо документацию онлайн. Итак, два вопроса: Я могу это сделать: Nutch -> Gora -> Solrи использовать SOLR для хранения и индексации?…
19 сен '15 в 21:52
1 ответ

Класс Nutch Gora не работает во время работы Nutch в режиме Hadoop

Когда я пытаюсь hadoop jar apache-nutch-2.2.jar org.apache.nutch.crawl.Crawler crawl -dir crawl -depth 3 -topN 5 Я получаю следующую ошибку... 13/07/09 09:02:46 WARN conf.Configuration: nutch-default.xml:a attempt to override final parameter: hadoop…
09 июл '13 в 07:09
2 ответа

HBase master не работает исключение

Я получаю следующую ошибку. Я пытаюсь подключить HBase в качестве бэк-энда для Nutch Crawler. 13/10/21 13:11:13 INFO client.HConnectionManager$HConnectionImplementation: getMaster attempt 0 of 10 failed; retrying after sleep of 1000 org.apache.hadoo…
21 окт '13 в 13:16
0 ответов

Настройка зависимости Nutch2.0

Я сканирую URL-адреса с Nutch2.0 в режиме развертывания: Я строю орех с муравьем Я использовал Nutch-2.0.job с Hadoop. Я выполнил следующие команды: sudo -u hdfs hadoop jar /home/bluesky/nutch/runtime/deploy/apache-nutch-2.0.job org.apache.nutch.cra…
09 окт '12 в 10:43
1 ответ

Что такое Гора и ее особенности?

Что такое гора? что это делает для нас? как это работает с hbase? какие характеристики он имеет? Вы знаете хорошее эссе или веб-страницу, которая может мне помочь?
01 мар '11 в 11:13