Описание тега emr

Описание тега Вопросы с тегом

Вопросы, касающиеся продукта Amazon Elastic MapReduce (EMR).

1 ответ

AWS EMR SSE Согласованный вид

Я пытаюсь создать кластер EMR в AWS с помощью команды CLI ниже, но он не создает кластер в согласованном представлении, а флаг шифрования на стороне сервера не устанавливается (fs.s3.consistent и fs.s3.enableServerSideEncryption оба имеют значение f…

amazon-web-services encryption emr

05 дек '14 в 20:07

1 ответ

SparkContext addFile вызывает исключение FileNotFoundException

Я пытаюсь доставить большой файл каждому исполнителю с помощью метода sparkContext.addFile. Источник этого большого файла - Amazon S3 (ПРИМЕЧАНИЕ. В случае источника HDFS все работает нормально) val context = stream.context.sparkContext context.addF…

apache-spark amazon-s3 amazon-emr emr

15 авг '16 в 13:34

2 ответа

Работа Spark просто зависает с большими данными

Я пытаюсь запросить от s3 (15 дней данных). Я пытался запрашивать их отдельно (каждый день), он работает нормально. Хорошо работает и 14 дней. Но когда я запрашиваю 15 дней, задание продолжает работать вечно (зависает), и задача № не обновляется. Мо…

apache-spark hadoop yarn amazon-emr emr

06 дек '17 в 22:10

1 ответ

Ограничение ширины столбца Hive Metastore

Используя AWS EMR в версии 5.2.1 в качестве среды обработки данных, при работе с огромным файлом JSON, имеющим сложную схему со многими вложенными полями, Hive не может обработать его и выдает ошибки, так как он достигает текущего предела длины стол…

json hadoop hive emr metastore

01 фев '17 в 17:42

0 ответов

Как эффективно войти из PySpark?

Мне интересно, какова лучшая практика для входа из Spark (используя Pyspark) на EMR кластер. Мы хотели бы получить какую-то обратную связь, которую мы можем проверить, чтобы увидеть, как работает работа, и нам не нужно ждать, пока работа не сработае…

python apache-spark pyspark emr

06 июн '16 в 18:26

1 ответ

Передача конфигурации улья с помощью aws emr cli

Я следую за документом: http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr-dev-create-metastore-outside.html и пытаюсь создать кластер emr с помощью awscli == 1.10.38. Я использую следующую команду, как указано в документации: aws e…

amazon-web-services hive aws-cli amazon-emr emr

20 авг '16 в 02:42

0 ответов

Не удалось опубликовать в CloudWatch: Ошибка при запуске child: java.lang.NoSuchMethodError:

Я пытаюсь отправить сообщение в Cloudwatch с моей работы EMR, но получаю сообщение об ошибке от stderr: Ошибка: com.amazonaws.auth.DefaultAWSCredentialsProviderChain.getInstance()Lcom/amazonaws/auth/DefaultAWSCredentialsProviderChain; Контейнер убит…

java amazon-web-services amazon-cloudwatch amazon-emr emr

20 июн '17 в 17:51

0 ответов

:INIT_FAILURE, не удалось создать InputInitializerManager

Я использую сервисы EMR из Amazon Web Services и пытаюсь выполнить запрос подсчета для внешней таблицы, которую я построил. Данные для таблицы хранятся в mongodb, а таблица является внешней таблицей в Hive. Запрос, который я пытаюсь выполнить, selec…

mongodb hadoop amazon-ec2 hive emr

14 окт '16 в 19:17

1 ответ

Как удалить кластер AWS EMR?

Я играл с AWS EMR, и теперь у меня есть несколько кластеров, которые завершаются и которые я хочу удалить: Однако очевидного варианта их удаления нет. Как мне заставить их уйти?

amazon-web-services amazon-emr emr

11 ноя '15 в 23:01

0 ответов

Использование Spark структурированного потокового кластера

Я создавал искровое структурированное потоковое приложение и пытаюсь понять развертывание на EMR. Приложение делает следующее; Подписаться на тему Кафки Агрегировать по временному окну и идентификатору пользователя (чтобы избежать невозможности полу…

apache-spark spark-streaming spark-structured-streaming emr

14 май '18 в 13:15

7 ответов

Pyspark --py-файлы не работают

Я использую это, как предлагает документ http://spark.apache.org/docs/1.1.1/submitting-applications.html Spsark версия 1.1.0 ./spark/bin/spark-submit --py-files /home/hadoop/loganalysis/parser-src.zip \ /home/hadoop/loganalysis/ship-test.py и конф в…

python apache-spark hadoop emr

25 дек '14 в 05:46

1 ответ

Запуск mahout с использованием hadoop на EMR/EC2 Amazon

Я хочу перенести мой текущий локальный кластер hadoop в Amazon . В этом кластере hadoop я использую такие сервисы, как mahout, hbase и hive. У меня есть два варианта в Амазонке: использовать только чистые инстансы EC2 или кластер сокращения упругой …

amazon-web-services hadoop amazon-ec2 mahout emr

14 фев '14 в 07:44

1 ответ

Как перезапустить сервис Spark в EMR после изменения настроек conf?

Я использую EMR-5.9.0 и после изменения некоторых файлов конфигурации я хочу перезапустить службу, чтобы увидеть эффект. Как мне этого добиться? Я попытался найти название службы, используя список initctl, как я видел в других ответах, но не повезло…

apache-spark amazon-emr emr

12 окт '17 в 12:24

1 ответ

Как настроить AWS EMR для использования s3 в качестве хранилища hdfs

Я пытаюсь создать кластер EMR с приведенными ниже конфигурациями, но на этапе начальной загрузки происходит сбой. Я использую EMR-релиз EMR 5.13.0 [ { "Classification": "core-site", "Properties": { "fs.defaultFS": "s3://my-s3-bucket", "fs.s3a.imp": …

hdfs amazon-emr emr elastic-map-reduce

10 май '18 в 11:35

0 ответов

Эффективный способ вывода файлов из Spark в S3 и RDS

Я использую приложение AWS EMR Spark, которое должно выводить результат в AWS S3 и AWS RDS, однако это занимает очень много времени (даже при включенных конфигурациях оптимизации). В некоторых публикациях предлагается сначала записать вывод в HDFS и…

apache-spark amazon-s3 emr

25 янв '18 в 12:42

1 ответ

Шаг зажигания EMR и объединить вывод в один файл

Я пытаюсь EMR искра шаг. У меня есть каталог ввода S3. Которые имеют несколько файлов: f1,f2,f3 Я добавляю шаг искры так: aws emr --region us-west-2 add-steps --cluster-id foo --steps '[{"Args":["spark-submit","--deploy-mode","cluster","--class","Js…

parquet spark-dataframe emr

24 окт '17 в 02:36

1 ответ

Ошибка возврата координатора Presto 404 при подключении через драйвер Terradata odbc

Я пытаюсь подключиться к координатору Presto, который находится в кластере EMR. Я использую драйвер Terradata ODBC. Я одновременно протестировал драйвер, поместив соответствующие подробности в DSN через диалог соединений ODBC, и написал простое прил…

odbc emr prestodb

28 сен '16 в 20:07

1 ответ

Как вычесть в парадигме Map Reduce

У меня есть следующий набор данных s1, s2, count 1, 2, x1 1, 3, x2 1, 4, x3 2, 1, y1 2, 3, y2 2, 4, y3 3, 1, z1 3, 2, z2 Я хочу получить следующий вывод s1, s2, count 1, 2, x1-y1 1, 3, x2-z1 1, 4, x3 2, 3, y2-z2 2, 4, y3 Идея состоит в том, что s1 я…

hadoop mapreduce distributed-computing emr elastic-map-reduce

25 окт '17 в 15:40

0 ответов

Лучшие практики для развертывания приложения Spark, использующего брокер сообщений

Я создал приложение Java, которое использует сообщения посредника сообщений для запуска заданий Spark на основе параметров, отправляемых в сообщении. Я хочу развернуть приложение в кластере Spark (AWS EMR). Для этого я думал об использовании spark-s…

java apache-spark emr messagebroker

14 май '16 в 22:08

1 ответ

Конфигурация приложения Spark Streaming с помощью YARN

Я пытаюсь выжать каждый бит из моего кластера при настройке приложения spark, но, похоже, я не совсем все понимаю. Итак, я запускаю приложение в кластере AWS EMR с 1 главным и 2 базовыми узлами типа m3.xlarge(15 ГБ оперативной памяти и 4 vCPU для ка…

apache-spark hadoop yarn emr

04 июл '17 в 13:49