Описание тега hadoop-partitioning

Разделение Hadoop касается вопросов о том, как hadoop решает, какие пары ключ / значение должны быть отправлены в редуктор (раздел).
1 ответ

Как проверить данные конкретного раздела из разделов Spark в Pyspark

Я создал два фрейма данных в pyspark из моей таблицы улья: data1 = spark.sql(""" SELECT ID, MODEL_NUMBER, MODEL_YEAR ,COUNTRY_CODE from MODEL_TABLE1 where COUNTRY_CODE in ('IND','CHN','USA','RUS','AUS') """); каждая страна имеет миллионы уникальных …
04 окт '18 в 08:44
0 ответов

Создать уникальный идентификатор в MapReduce

Я сравниваю два файла A & B и извлекаю столбцы из A, которых нет в B, и добавляю их в B. Когда новая запись добавляется в B, ей должен быть присвоен уникальный идентификатор. Я ищу логику, где я могу получить общее количество от B, который сейчас яв…
03 дек '18 в 21:12
1 ответ

Как разделить неравномерно распределенные события на временной шкале?

Я работаю над системой обработки событий, где мне нужно читать данные о событиях из таблицы hbase. События, которые я читаю, сохраняются на основе их метки времени. Когда я читаю за целый день (24 часа), я нахожу периоды в день, когда у меня 1 милли…
23 июн '17 в 14:11
0 ответов

Пользовательское разбиение дает ошибку ArrayIndexOuntOfBounds

Когда я запускаю свой код, я получаю следующее исключение: hadoop@hadoop:~/testPrograms$ hadoop jar cp.jar CustomPartition /test/test.txt /test/output33 15/03/03 16:33:33 INFO Configuration.deprecation: session.id is deprecated. Instead, use dfs.met…
0 ответов

Ошибка при запуске программы MapReduce с HCatalog на подчиненном узле

Я написал программу MR для чтения CSV-файла и сохранения данных в многораздельной таблице кустов. Я использую HCatalog для создания раздела в таблице. Программа успешно скомпилирована. Я установил все необходимые банки в classpath по этой ссылке: ht…
1 ответ

Почему `getNumPartitions()` не дает мне правильное количество разделов, указанное в `repartition`?

У меня есть textFile в и рдд вроде так: sc.textFile(<file_name>), Я пытаюсь перераспределить RDD для ускорения обработки: sc.repartition(<n>), Неважно, что я положил в <n>, кажется, не меняется, как указано: RDD.getNumPartitions() …
1 ответ

Как работать с входными файлами.gz с помощью Hadoop?

Пожалуйста, позвольте мне предоставить сценарий: hadoop jar test.jar Test inputFileFolder outputFileFolder где test.jar сортирует информацию по ключу, времени и месту inputFileFolder содержит несколько файлов.gz, каждый файл.gz составляет около 10 Г…
05 ноя '15 в 15:27
1 ответ

Разделение Hadoop. Как эффективно оформить стол Hive/Impala?

Как эффективно составить таблицу Hive/Impala, учитывая следующие факты? Таблица получает данные инструмента около 100 миллионов строк каждый день. Дата получения данных сохраняется в столбце таблицы вместе с идентификатором инструмента. Каждый инстр…
02 сен '16 в 16:26
0 ответов

Spark Clustered By/Bucket по набору данных, не использующему память

Недавно я наткнулся здесь на Spark. Я попытался имитировать это для исходного файла 1.1TB от S3 (уже в паркете). План состоит в том, чтобы полностью избежать перемешивания, так как большинство наборов данных всегда объединяются в столбце "id". Вот ч…
1 ответ

Как объединить небольшие файлы из существующих разделов в кусте?

Как объединить существующие небольшие файлы раздела в один большой файл в одном разделе. Например, у меня есть таблица user1, она содержит столбцы fname, lname и раздел столбца day. Я создал таблицу с помощью сценария ниже CREATE TABLE user1(строка …
07 фев '17 в 13:27
1 ответ

Каким образом ввод малого размера читается картографом в map-Reduce?

У меня есть работа по уменьшению карты, чей ввод - большой набор данных (скажем, размером 100 ГБ). Эта задача сокращения карты разбивает большие данные на куски и записывает отдельные файлы, по одному на каждый блок данных. Таким образом, вывод зада…
20 сен '13 в 17:36
2 ответа

fs.rename(новый путь (rawFileName), новый путь (processFileName)) не работает

Я работаю над реализацией Apache Spark на основе Scala для передачи данных из удаленного местоположения в HDFS, а затем - для загрузки данных из HDFS в таблицы Hive. Используя свое первое искровое задание, я вставил данные / файлы в HDFS в месте, ск…
2 ответа

Задача Hadoop Map: чтение содержимого указанного входного файла

Я довольно новичок в среде Hadoop. Недавно я запустил базовую программу mapreduce. Было легко бежать. Теперь у меня есть входной файл со следующим содержимым в каталоге пути ввода fileName1 fileName2 fileName3 ... Мне нужно прочитать строки этого фа…
1 ответ

Мы можем использовать log4j в mapreduce?

Можем ли мы использовать log4j для входа в mapreduce? Если это так, предоставьте шаги для использования log4j в map-lower для регистрации информации. Я написал ниже log4.properties, но ничего не было зарегистрировано.
1 ответ

Как достигается высокая доступность Namenode в Hadoop 1.x?

Есть ли какое-либо возможное решение для достижения Namenode HA в Hadoop 1.x?
2 ответа

Как данные разделяются на файлы деталей в sqoop

Я сомневаюсь, как данные разбиваются на файлы деталей, если данные искажены. Если возможно, пожалуйста, помогите мне прояснить это. Допустим это мое department стол с department_id в качестве первичного ключа. mysql> select * from departments; 2 …
14 июл '17 в 10:17
2 ответа

Данные в файлах HDFS не отображаются под таблицей улья

Я должен создать таблицу улья из данных, представленных в таблицах оракула. Я делаю sqoop, тем самым преобразуя данные оракула в файлы HDFS. Затем я создаю таблицу кустов для файлов HDFS. Sqoop завершается успешно, и файлы также генерируются в целев…
11 июн '15 в 16:47
1 ответ

Возникла ошибка при использовании TotalOrderPartitioner MapReduce

Я написал программу ниже. Я запустил его без использования TotalOrderPartitioner, и он работает хорошо. Поэтому я не думаю, что есть какие-либо проблемы с классом Mapper или Reducer как таковым. Но когда я включаю код для TotalOrderPartitioner, т. Е…
21 янв '16 в 02:48
1 ответ

Hive запрос не читает поле раздела

Я создал секционированную таблицу Hive, используя следующий запрос CREATE EXTERNAL TABLE `customer`( `cid` string COMMENT '', `member` string COMMENT '', `account` string COMMENT '') PARTITIONED BY (update_period string) ROW FORMAT SERDE 'org.apache…
03 дек '18 в 03:07
3 ответа

Раздельный ввод в редуктор в hadoop

Этот вопрос отчасти связан с моим другим вопросом, касающимся обработки данных в Hadoop в редукторе. Однако я хотел бы спросить, есть ли доступные параметры конфигурации, чтобы, если, скажем, был достигнут максимальный объем памяти редуктора, тогда …
17 сен '15 в 18:40