Описание тега hadoop
Hadoop - это проект Apache с открытым исходным кодом, который предоставляет программное обеспечение для надежных и масштабируемых распределенных вычислений. Ядро состоит из распределенной файловой системы (HDFS) и диспетчера ресурсов (YARN). Различные другие проекты с открытым исходным кодом, такие как Apache Hive, используют Apache Hadoop в качестве уровня сохраняемости.
2
ответа
Ошибка: не удалось создать хранилище данных при запуске встроенной свиньи в Java
Я написал простую программу для тестирования встроенной свиньи в Java для запуска в режиме mapreduce. Версия hadoop на сервере, на котором я работаю, - 0.20.2-cdh3u4a, а версия pig - 0.10.0-cdh3u4a. Когда я пытаюсь запустить в локальном режиме, он р…
17 июл '13 в 00:02
1
ответ
Файл FlumeData не создается в приемнике HDFS
Я пытаюсь принимать данные в реальном времени, используя Кафку в качестве источника и поток в качестве приемника. Тип раковины - HDFS. Мой продюсер работает нормально, я вижу производимые данные, и мой агент работает нормально (без ошибок при выполн…
17 июл '17 в 10:07
1
ответ
Как преобразовать JSON-файл в Excel/ SQL-запрос
У меня есть процесс ETL, в котором дополнительная / дельта-загрузка генерируется командой поставщика исходной системы в файле json и передается команде разработчиков для загрузки в таблицу. И исходная система согласилась предоставить команде тестиро…
25 сен '17 в 04:52
1
ответ
Создать RDD на основе части строк HBase
Я пытаюсь создать RDD на основе данных из HBase Таблица: val targetRDD = sparkContext.newAPIHadoopRDD(hBaseConfig, classOf[TableInputFormat], classOf[ImmutableBytesWritable], classOf[Result]) .map { case (key, row) => parse(key, row) } parse вызы…
29 окт '16 в 19:36
0
ответов
Как сделать сложный запрос по большим данным?
Каждый. У меня есть некоторые данные о 6G в hdfs, которые были экспортированы из mysql. И у меня есть запись mapreduces для предварительной обработки данных, чтобы заполнить какое-то ключевое поле, чтобы данные можно было легко запрашивать. Поскольк…
01 дек '14 в 14:51
1
ответ
Может ли один и тот же экземпляр Zookeeper использоваться рядом служб?
Достаточно ли хороша одна установка Zookeeper для использования кластерами Hadoop Kafka и Storm? Я хочу развернуть все в одной тестовой среде и попробовать поиграть с этими технологиями. Могу ли я использовать для этого одну установку zookeeper? так…
21 июн '14 в 09:36
1
ответ
ElasticMapReduce потоковый сжатый вывод
Я выполняю потоковые задания с помощью сценариев Python для карты и сокращения. Поток работ, который я создаю с помощью библиотеки boto. Я использую входные файлы gzip. Как я могу создать выходные файлы gzip?
03 ноя '14 в 23:38
1
ответ
Работа сценария оболочки Oozie
У меня есть один сценарий оболочки script.sh, которому нужен один файл свойств script.properties. Я выполнил этот скрипт как: ./script.sh script.properties Теперь я хочу запустить этот скрипт, используя oozie. Как я могу передать файл script.propert…
11 ноя '16 в 15:31
1
ответ
Команда WebHDFS OPEN возвращает пустые результаты
Я создал простой файл в HDFS по пути /user/admin/foo.txt Я могу видеть содержимое этого файла в Хюэ. Как я выдаю команду curl -i http://namenode:50070/webhdfs/v1/user/admin/foo.txt?op=OPEN Я получаю ответ HTTP/1.1 307 TEMPORARY_REDIRECT Cache-Contro…
24 ноя '15 в 16:22
3
ответа
Ant BuildException при сборке ошибок Hadoop 2.2.0
У меня были проблемы с сборкой Hadoop 2.2.0 с использованием Maven 3.1.1, это часть вывода, который я получаю (полный журнал на http://pastebin.com/FE6vu46M): [INFO] ------------------------------------------------------------------------ [INFO] Rea…
04 дек '13 в 16:44
2
ответа
Тестирование Hadoop с использованием MRUnit
Я модифицирую кучу существующих модульных тестов Hadoop, которые ранее выполнялись в кластере в памяти (используя MiniMRCluster), в MRUnit. Существующие тестовые сценарии, по сути, предоставляют входные данные для фазы Map, а затем тестируют выходны…
25 май '11 в 01:51
1
ответ
Pig - загружать документы Word (.doc & .docx) с помощью pig
Я не могу загрузить документы Microsoft Word (.doc или.docx) с поросенком. Действительно, когда я пытаюсь это сделать, используя TextLoader(), PigStorage() или вообще не загружая, это не работает. На выходе получаются странные символы. Я слышал, что…
29 авг '13 в 09:03
1
ответ
Функция Hive INSTR некорректно работает со строкой с символами UTF8
Функция Hive INSTR некорректно работает со строками с символами UTF8. Когда символ ударения является частью строки, INSTR возвращает неправильное расположение символов для последующих символов. Кажется, он считает байты вместо символов. С символом у…
09 ноя '16 в 00:30
1
ответ
Hive-Java JDBC проблемы с подключением
Я делаю программу на Java, и мне нужно соединиться с базой данных в улье. Я использую MySQL в качестве метастаза. Hadoop, mysql и hive работают без проблем. Я создал свою базу данных в хранилище и таблицу в ней, а также вставил данные для консоли hi…
13 июн '18 в 15:13
1
ответ
Улей создает отдельную копию данных
Когда мы создадим таблицу в кусте, используя CSV-файл из hdfs, тогда куст будет создавать отдельную копию этих данных? Это приведет к ненужным потерям памяти
28 май '16 в 11:06
2
ответа
Почему я не могу создавать дочерние папки в структуре родительских папок в hadoop hdfs?
У меня возникают проблемы при создании дочерних (рекурсивных) папок в структуре родительских папок в HDFS. Использование Hadoop версии 2.7.1 sample: hadoop fs -mkdir /test/sample / logfiles Если я введу вышеупомянутую команду в терминале, я не смогу…
16 фев '16 в 07:30
0
ответов
Выбор данных из таблицы улья
У меня есть данные временных рядов в Hive table(21.1G) в котором хранится столько частей файлов паркета в формате hdf. Таблица разделена на sid, год, дату. Мне нужно сделать запрос на выборку для этой таблицы и сделать некоторые вычисления. задание …
08 сен '17 в 18:39
0
ответов
org.elasticsearch.hadoop.EsHadoopIllegalArgumentException: не удается найти сопоставление для test-index
Когда я загружаю данные Elasticsearch в Spark DataFrame с помощью PySpark, я получаю следующую ошибку: py4j.protocol.Py4JJavaError: Произошла ошибка при вызове o48.load.: org.elasticsearch.hadoop.EsHadoopIllegalArgumentException: не удается найти со…
04 сен '18 в 14:28
1
ответ
Ошибка при запуске Pig
Я настроил Pig в своей системе Hadoop, но при запуске я получаю ошибку, связанную с log4j. Я что-то пропустил? Спасибо! $ pig log4j:ERROR Could not instantiate class [org.apache.hadoop.log.metrics.EventCounter]. java.lang.ClassNotFoundException: org…
14 фев '14 в 13:22
0
ответов
Hadoop DataNode не может подключиться к NameNode
Я вижу следующие ошибки в журналах 017-09-17 09:20:10,193 INFO org.apache.hadoop.ipc.Server: Starting Socket Reader #1 for port 50020 2017-09-17 09:20:10,257 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Opened IPC server at /0.0.0.0:50020 2…
17 сен '17 в 10:13