Описание тега hadoop-partitioning

Вопросы с тегом

Разделение Hadoop касается вопросов о том, как hadoop решает, какие пары ключ / значение должны быть отправлены в редуктор (раздел).

1 ответ

Как проверить данные конкретного раздела из разделов Spark в Pyspark

Я создал два фрейма данных в pyspark из моей таблицы улья: data1 = spark.sql(""" SELECT ID, MODEL_NUMBER, MODEL_YEAR ,COUNTRY_CODE from MODEL_TABLE1 where COUNTRY_CODE in ('IND','CHN','USA','RUS','AUS') """); каждая страна имеет миллионы уникальных …

pyspark hadoop-partitioning

04 окт '18 в 08:44

0 ответов

Создать уникальный идентификатор в MapReduce

Я сравниваю два файла A & B и извлекаю столбцы из A, которых нет в B, и добавляю их в B. Когда новая запись добавляется в B, ей должен быть присвоен уникальный идентификатор. Я ищу логику, где я могу получить общее количество от B, который сейчас яв…

03 дек '18 в 21:12

1 ответ

Как разделить неравномерно распределенные события на временной шкале?

Я работаю над системой обработки событий, где мне нужно читать данные о событиях из таблицы hbase. События, которые я читаю, сохраняются на основе их метки времени. Когда я читаю за целый день (24 часа), я нахожу периоды в день, когда у меня 1 милли…

apache-spark hbase hadoop-partitioning

23 июн '17 в 14:11

0 ответов

Пользовательское разбиение дает ошибку ArrayIndexOuntOfBounds

Когда я запускаю свой код, я получаю следующее исключение: hadoop@hadoop:~/testPrograms$ hadoop jar cp.jar CustomPartition /test/test.txt /test/output33 15/03/03 16:33:33 INFO Configuration.deprecation: session.id is deprecated. Instead, use dfs.met…

hadoop indexoutofboundsexception hadoop2 hadoop-partitioning

04 мар '15 в 01:43

0 ответов

Ошибка при запуске программы MapReduce с HCatalog на подчиненном узле

Я написал программу MR для чтения CSV-файла и сохранения данных в многораздельной таблице кустов. Я использую HCatalog для создания раздела в таблице. Программа успешно скомпилирована. Я установил все необходимые банки в classpath по этой ссылке: ht…

java hadoop mapreduce hadoop-partitioning hcatalog

04 дек '17 в 20:35

1 ответ

Почему `getNumPartitions()` не дает мне правильное количество разделов, указанное в `repartition`?

У меня есть textFile в и рдд вроде так: sc.textFile(<file_name>), Я пытаюсь перераспределить RDD для ускорения обработки: sc.repartition(<n>), Неважно, что я положил в <n>, кажется, не меняется, как указано: RDD.getNumPartitions() …

apache-spark pyspark partition hadoop-partitioning

16 дек '15 в 00:10

1 ответ

Как работать с входными файлами.gz с помощью Hadoop?

Пожалуйста, позвольте мне предоставить сценарий: hadoop jar test.jar Test inputFileFolder outputFileFolder где test.jar сортирует информацию по ключу, времени и месту inputFileFolder содержит несколько файлов.gz, каждый файл.gz составляет около 10 Г…

hadoop zip gzip hadoop2 hadoop-partitioning

05 ноя '15 в 15:27

1 ответ

Разделение Hadoop. Как эффективно оформить стол Hive/Impala?

Как эффективно составить таблицу Hive/Impala, учитывая следующие факты? Таблица получает данные инструмента около 100 миллионов строк каждый день. Дата получения данных сохраняется в столбце таблицы вместе с идентификатором инструмента. Каждый инстр…

hadoop hive impala hadoop-partitioning

02 сен '16 в 16:26

0 ответов

Spark Clustered By/Bucket по набору данных, не использующему память

Недавно я наткнулся здесь на Spark. Я попытался имитировать это для исходного файла 1.1TB от S3 (уже в паркете). План состоит в том, чтобы полностью избежать перемешивания, так как большинство наборов данных всегда объединяются в столбце "id". Вот ч…

apache-spark amazon-s3 join amazon-emr hadoop-partitioning

20 ноя '18 в 18:03

1 ответ

Как объединить небольшие файлы из существующих разделов в кусте?

Как объединить существующие небольшие файлы раздела в один большой файл в одном разделе. Например, у меня есть таблица user1, она содержит столбцы fname, lname и раздел столбца day. Я создал таблицу с помощью сценария ниже CREATE TABLE user1(строка …

sql hadoop hive hiveql hadoop-partitioning

07 фев '17 в 13:27

1 ответ

Каким образом ввод малого размера читается картографом в map-Reduce?

У меня есть работа по уменьшению карты, чей ввод - большой набор данных (скажем, размером 100 ГБ). Эта задача сокращения карты разбивает большие данные на куски и записывает отдельные файлы, по одному на каждый блок данных. Таким образом, вывод зада…

hadoop mapreduce hadoop-partitioning

20 сен '13 в 17:36

2 ответа

fs.rename(новый путь (rawFileName), новый путь (processFileName)) не работает

Я работаю над реализацией Apache Spark на основе Scala для передачи данных из удаленного местоположения в HDFS, а затем - для загрузки данных из HDFS в таблицы Hive. Используя свое первое искровое задание, я вставил данные / файлы в HDFS в месте, ск…

apache-spark hadoop spark-dataframe hadoop2 hadoop-partitioning

02 авг '17 в 11:04

2 ответа

Задача Hadoop Map: чтение содержимого указанного входного файла

Я довольно новичок в среде Hadoop. Недавно я запустил базовую программу mapreduce. Было легко бежать. Теперь у меня есть входной файл со следующим содержимым в каталоге пути ввода fileName1 fileName2 fileName3 ... Мне нужно прочитать строки этого фа…

java hadoop mapreduce cloudera hadoop-partitioning

15 окт '13 в 10:36

1 ответ

Мы можем использовать log4j в mapreduce?

Можем ли мы использовать log4j для входа в mapreduce? Если это так, предоставьте шаги для использования log4j в map-lower для регистрации информации. Я написал ниже log4.properties, но ничего не было зарегистрировано.

hadoop mapreduce hadoop-streaming hadoop-partitioning

07 сен '16 в 03:15

1 ответ

Как достигается высокая доступность Namenode в Hadoop 1.x?

Есть ли какое-либо возможное решение для достижения Namenode HA в Hadoop 1.x?

hadoop hadoop2 hadoop-streaming hadoop-partitioning

16 июл '15 в 11:50

2 ответа

Как данные разделяются на файлы деталей в sqoop

Я сомневаюсь, как данные разбиваются на файлы деталей, если данные искажены. Если возможно, пожалуйста, помогите мне прояснить это. Допустим это мое department стол с department_id в качестве первичного ключа. mysql> select * from departments; 2 …

hadoop sqoop hadoop-partitioning apache-sqoop

14 июл '17 в 10:17

2 ответа

Данные в файлах HDFS не отображаются под таблицей улья

Я должен создать таблицу улья из данных, представленных в таблицах оракула. Я делаю sqoop, тем самым преобразуя данные оракула в файлы HDFS. Затем я создаю таблицу кустов для файлов HDFS. Sqoop завершается успешно, и файлы также генерируются в целев…

hadoop hive sqoop hadoop-partitioning

11 июн '15 в 16:47

1 ответ

Возникла ошибка при использовании TotalOrderPartitioner MapReduce

Я написал программу ниже. Я запустил его без использования TotalOrderPartitioner, и он работает хорошо. Поэтому я не думаю, что есть какие-либо проблемы с классом Mapper или Reducer как таковым. Но когда я включаю код для TotalOrderPartitioner, т. Е…

hadoop mapreduce hadoop-partitioning

21 янв '16 в 02:48

1 ответ

Hive запрос не читает поле раздела

Я создал секционированную таблицу Hive, используя следующий запрос CREATE EXTERNAL TABLE `customer`( `cid` string COMMENT '', `member` string COMMENT '', `account` string COMMENT '') PARTITIONED BY (update_period string) ROW FORMAT SERDE 'org.apache…

hadoop hive mapreduce avro hadoop-partitioning

03 дек '18 в 03:07

3 ответа

Раздельный ввод в редуктор в hadoop

Этот вопрос отчасти связан с моим другим вопросом, касающимся обработки данных в Hadoop в редукторе. Однако я хотел бы спросить, есть ли доступные параметры конфигурации, чтобы, если, скажем, был достигнут максимальный объем памяти редуктора, тогда …

hadoop mapreduce reducers hadoop-partitioning

17 сен '15 в 18:40