Описание тега hadoop

Описание тега Вопросы с тегом

Hadoop - это проект Apache с открытым исходным кодом, который предоставляет программное обеспечение для надежных и масштабируемых распределенных вычислений. Ядро состоит из распределенной файловой системы (HDFS) и диспетчера ресурсов (YARN). Различные другие проекты с открытым исходным кодом, такие как Apache Hive, используют Apache Hadoop в качестве уровня сохраняемости.

2 ответа

Ошибка: не удалось создать хранилище данных при запуске встроенной свиньи в Java

Я написал простую программу для тестирования встроенной свиньи в Java для запуска в режиме mapreduce. Версия hadoop на сервере, на котором я работаю, - 0.20.2-cdh3u4a, а версия pig - 0.10.0-cdh3u4a. Когда я пытаюсь запустить в локальном режиме, он р…

hadoop apache-pig

17 июл '13 в 00:02

1 ответ

Файл FlumeData не создается в приемнике HDFS

Я пытаюсь принимать данные в реальном времени, используя Кафку в качестве источника и поток в качестве приемника. Тип раковины - HDFS. Мой продюсер работает нормально, я вижу производимые данные, и мой агент работает нормально (без ошибок при выполн…

hadoop apache-kafka flume

17 июл '17 в 10:07

1 ответ

Как преобразовать JSON-файл в Excel/ SQL-запрос

У меня есть процесс ETL, в котором дополнительная / дельта-загрузка генерируется командой поставщика исходной системы в файле json и передается команде разработчиков для загрузки в таблицу. И исходная система согласилась предоставить команде тестиро…

oracle hadoop impala

25 сен '17 в 04:52

1 ответ

Создать RDD на основе части строк HBase

Я пытаюсь создать RDD на основе данных из HBase Таблица: val targetRDD = sparkContext.newAPIHadoopRDD(hBaseConfig, classOf[TableInputFormat], classOf[ImmutableBytesWritable], classOf[Result]) .map { case (key, row) => parse(key, row) } parse вызы…

apache-spark hadoop hbase

29 окт '16 в 19:36

0 ответов

Как сделать сложный запрос по большим данным?

Каждый. У меня есть некоторые данные о 6G в hdfs, которые были экспортированы из mysql. И у меня есть запись mapreduces для предварительной обработки данных, чтобы заполнить какое-то ключевое поле, чтобы данные можно было легко запрашивать. Поскольк…

hadoop hive

01 дек '14 в 14:51

1 ответ

Может ли один и тот же экземпляр Zookeeper использоваться рядом служб?

Достаточно ли хороша одна установка Zookeeper для использования кластерами Hadoop Kafka и Storm? Я хочу развернуть все в одной тестовой среде и попробовать поиграть с этими технологиями. Могу ли я использовать для этого одну установку zookeeper? так…

hadoop apache-kafka apache-zookeeper apache-storm

21 июн '14 в 09:36

1 ответ

ElasticMapReduce потоковый сжатый вывод

Я выполняю потоковые задания с помощью сценариев Python для карты и сокращения. Поток работ, который я создаю с помощью библиотеки boto. Я использую входные файлы gzip. Как я могу создать выходные файлы gzip?

hadoop amazon-emr boto

03 ноя '14 в 23:38

1 ответ

Работа сценария оболочки Oozie

У меня есть один сценарий оболочки script.sh, которому нужен один файл свойств script.properties. Я выполнил этот скрипт как: ./script.sh script.properties Теперь я хочу запустить этот скрипт, используя oozie. Как я могу передать файл script.propert…

hadoop oozie hortonworks-data-platform oozie-coordinator

11 ноя '16 в 15:31

1 ответ

Команда WebHDFS OPEN возвращает пустые результаты

Я создал простой файл в HDFS по пути /user/admin/foo.txt Я могу видеть содержимое этого файла в Хюэ. Как я выдаю команду curl -i http://namenode:50070/webhdfs/v1/user/admin/foo.txt?op=OPEN Я получаю ответ HTTP/1.1 307 TEMPORARY_REDIRECT Cache-Contro…

hadoop cloudera webhdfs

24 ноя '15 в 16:22

3 ответа

Ant BuildException при сборке ошибок Hadoop 2.2.0

У меня были проблемы с сборкой Hadoop 2.2.0 с использованием Maven 3.1.1, это часть вывода, который я получаю (полный журнал на http://pastebin.com/FE6vu46M): [INFO] ------------------------------------------------------------------------ [INFO] Rea…

maven hadoop ant yarn

04 дек '13 в 16:44

2 ответа

Тестирование Hadoop с использованием MRUnit

Я модифицирую кучу существующих модульных тестов Hadoop, которые ранее выполнялись в кластере в памяти (используя MiniMRCluster), в MRUnit. Существующие тестовые сценарии, по сути, предоставляют входные данные для фазы Map, а затем тестируют выходны…

unit-testing hadoop

25 май '11 в 01:51

1 ответ

Pig - загружать документы Word (.doc & .docx) с помощью pig

Я не могу загрузить документы Microsoft Word (.doc или.docx) с поросенком. Действительно, когда я пытаюсь это сделать, используя TextLoader(), PigStorage() или вообще не загружая, это не работает. На выходе получаются странные символы. Я слышал, что…

hadoop mapreduce bigdata apache-pig

29 авг '13 в 09:03

1 ответ

Функция Hive INSTR некорректно работает со строкой с символами UTF8

Функция Hive INSTR некорректно работает со строками с символами UTF8. Когда символ ударения является частью строки, INSTR возвращает неправильное расположение символов для последующих символов. Кажется, он считает байты вместо символов. С символом у…

hadoop hive utf

09 ноя '16 в 00:30

1 ответ

Hive-Java JDBC проблемы с подключением

Я делаю программу на Java, и мне нужно соединиться с базой данных в улье. Я использую MySQL в качестве метастаза. Hadoop, mysql и hive работают без проблем. Я создал свою базу данных в хранилище и таблицу в ней, а также вставил данные для консоли hi…

java hadoop jdbc hive

13 июн '18 в 15:13

1 ответ

Улей создает отдельную копию данных

Когда мы создадим таблицу в кусте, используя CSV-файл из hdfs, тогда куст будет создавать отдельную копию этих данных? Это приведет к ненужным потерям памяти

hadoop hive

28 май '16 в 11:06

2 ответа

Почему я не могу создавать дочерние папки в структуре родительских папок в hadoop hdfs?

У меня возникают проблемы при создании дочерних (рекурсивных) папок в структуре родительских папок в HDFS. Использование Hadoop версии 2.7.1 sample: hadoop fs -mkdir /test/sample / logfiles Если я введу вышеупомянутую команду в терминале, я не смогу…

hadoop hdfs bigdata

16 фев '16 в 07:30

0 ответов

Выбор данных из таблицы улья

У меня есть данные временных рядов в Hive table(21.1G) в котором хранится столько частей файлов паркета в формате hdf. Таблица разделена на sid, год, дату. Мне нужно сделать запрос на выборку для этой таблицы и сделать некоторые вычисления. задание …

apache-spark hadoop hive hiveql

08 сен '17 в 18:39

0 ответов

org.elasticsearch.hadoop.EsHadoopIllegalArgumentException: не удается найти сопоставление для test-index

Когда я загружаю данные Elasticsearch в Spark DataFrame с помощью PySpark, я получаю следующую ошибку: py4j.protocol.Py4JJavaError: Произошла ошибка при вызове o48.load.: org.elasticsearch.hadoop.EsHadoopIllegalArgumentException: не удается найти со…

apache-spark elasticsearch hadoop pyspark

04 сен '18 в 14:28

1 ответ

Ошибка при запуске Pig

Я настроил Pig в своей системе Hadoop, но при запуске я получаю ошибку, связанную с log4j. Я что-то пропустил? Спасибо! $ pig log4j:ERROR Could not instantiate class [org.apache.hadoop.log.metrics.EventCounter]. java.lang.ClassNotFoundException: org…

hadoop apache-pig

14 фев '14 в 13:22

0 ответов

Hadoop DataNode не может подключиться к NameNode

Я вижу следующие ошибки в журналах 017-09-17 09:20:10,193 INFO org.apache.hadoop.ipc.Server: Starting Socket Reader #1 for port 50020 2017-09-17 09:20:10,257 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Opened IPC server at /0.0.0.0:50020 2…

java apache hadoop

17 сен '17 в 10:13