Описание тега amazon-emr

Описание тега Вопросы с тегом

Amazon Elastic MapReduce (Amazon EMR) - это веб-сервис, который позволяет компаниям, исследователям, аналитикам данных и разработчикам легко и экономично обрабатывать огромные объемы данных. Он использует размещенную платформу Hadoop, работающую в масштабируемой веб-инфраструктуре Amazon Elastic Compute Cloud (Amazon EC2) и Amazon Simple Storage Service (Amazon S3).

1 ответ

ElasticMapReduce потоковый сжатый вывод

Я выполняю потоковые задания с помощью сценариев Python для карты и сокращения. Поток работ, который я создаю с помощью библиотеки boto. Я использую входные файлы gzip. Как я могу создать выходные файлы gzip?

hadoop amazon-emr boto

03 ноя '14 в 23:38

1 ответ

SparkContext addFile вызывает исключение FileNotFoundException

Я пытаюсь доставить большой файл каждому исполнителю с помощью метода sparkContext.addFile. Источник этого большого файла - Amazon S3 (ПРИМЕЧАНИЕ. В случае источника HDFS все работает нормально) val context = stream.context.sparkContext context.addF…

apache-spark amazon-s3 amazon-emr emr

15 авг '16 в 13:34

2 ответа

emr-5.4.0 (проблема выделения памяти для исполнителей Spark)

Я создал кластер искры (обучение, таким образом, не создал кластер с высокой памятью-процессором) с 1 главным узлом и 2 ядрами для запуска исполнителей, используя приведенный ниже конфиг Мастер:Running1m4.large (2 ядра, 8 ГБ) Core:Running2c4.large (…

apache-spark amazon-emr

23 апр '17 в 03:43

2 ответа

Работа Spark просто зависает с большими данными

Я пытаюсь запросить от s3 (15 дней данных). Я пытался запрашивать их отдельно (каждый день), он работает нормально. Хорошо работает и 14 дней. Но когда я запрашиваю 15 дней, задание продолжает работать вечно (зависает), и задача № не обновляется. Мо…

apache-spark hadoop yarn amazon-emr emr

06 дек '17 в 22:10

2 ответа

Не удается запустить поток работ EMR с использованием временных учетных данных из ролей IAM EC2

У меня есть экземпляр, которому была назначена роль IAM в EC2. Я не могу создать поток заданий EMR из этого экземпляра, используя временные учетные данные, которые предоставляет экземпляр, назначенный роли, я получаю следующий ответ от API: <Erro…

amazon-web-services amazon-emr

17 авг '14 в 20:21

0 ответов

Как загрузить файл, присутствующий в S3, из AWS EMR на компьютер EC2, используя Java

Есть ли способ загрузить файл, который хранится на AWS S3, из экземпляра EMR в другой каталог экземпляра EC2. До сих пор я пытаюсь сделать это с помощью Java SFTP. Также пытался использовать AWS S3 Client, чтобы поместить объект в s3. Вот мой код: t…

java amazon-s3 amazon-ec2 sftp amazon-emr

12 апр '16 в 06:37

2 ответа

Как построить правильные аналитические панели для данных в DynamoDB?

У меня есть набор таблиц Dynamo DB. И я хотел бы разработать правильное решение для построения динамических панелей мониторинга в реальном времени (или почти в реальном времени) для данных в этих таблицах. Например, если у меня есть таблица "пользов…

amazon-web-services amazon-dynamodb analytics amazon-emr dashboard

30 ноя '17 в 17:35

1 ответ

Ошибка пространства кучи Java при запуске задания сходства элементов mahout в Amazon EMR

Я пытаюсь выполнить задание сходства элементов mahout на входе, состоящем из ~250 миллионов пар (строка) в кластере Amazon EMR (m3.2xLarge,10 основных узлов). Я сталкиваюсь с ошибкой размера кучи Java при выполнении задания сходства. Вещи, которые я…

java amazon-emr mahout mahout-recommender

06 янв '15 в 10:01

2 ответа

Улей на свече на амазонке EMR

Я попробовал следующую команду в улье: set hive.execution.engine=spark; но получаю ошибку, когда я запускаю любой запрос после установки механизма исполнения на Amazon EMR: Exception in thread "main" java.lang.NoClassDefFoundError: scala/collection/…

apache-spark hive amazon-emr

02 мар '18 в 16:41

0 ответов

Spark streaming: Output Op Duration больше продолжительности задания

Я использую приложение потоковой передачи искры на EMR. Я замечаю на консоли, Output Op Duration на порядки выше фактического Job Duration, Что делает Spark Output Op Duration - Job Duration знак равно delta? Вот delta ~2,5 минуты, что недопустимо

apache-spark spark-streaming amazon-emr

02 мар '18 в 05:07

2 ответа

Amazon Redshift таблица на внешнюю таблицу в S3 каждый час

Я хотел бы экспортировать данные из таблицы Amazon Redshift во внешнюю таблицу, хранящуюся в Amazon S3. Каждый час я хочу экспортировать строки из источника Redshift во внешний целевой объект таблицы. Какие варианты существуют в AWS для достижения э…

amazon-web-services amazon-s3 amazon-redshift amazon-emr

10 май '18 в 09:16

4 ответа

Добавление заголовков столбцов в набор результатов куста

Я использую скрипт улья в Amazon EMR для анализа некоторых данных. И я переношу вывод в Amazon s3 bucket. Теперь результаты скрипта куста не содержат заголовков столбцов. Я также пытался использовать это: set hive.cli.print.header=true; Но это не по…

amazon-s3 hive amazon-emr

28 фев '13 в 15:37

2 ответа

Spark 2.3.1 AWS EMR не возвращает данные для некоторых столбцов, но работает в Афине / Престо и Спектруме

Я использую PySpark на Spark 2.3.1 на AWS EMR (Python 2.7.14) spark = SparkSession \ .builder \ .appName("Python Spark SQL data source example") \ .config("hive.metastore.client.factory.class", "com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalo…

apache-spark amazon-emr

13 сен '18 в 07:05

1 ответ

Передача конфигурации улья с помощью aws emr cli

Я следую за документом: http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr-dev-create-metastore-outside.html и пытаюсь создать кластер emr с помощью awscli == 1.10.38. Я использую следующую команду, как указано в документации: aws e…

amazon-web-services hive aws-cli amazon-emr emr

20 авг '16 в 02:42

0 ответов

Не удалось опубликовать в CloudWatch: Ошибка при запуске child: java.lang.NoSuchMethodError:

Я пытаюсь отправить сообщение в Cloudwatch с моей работы EMR, но получаю сообщение об ошибке от stderr: Ошибка: com.amazonaws.auth.DefaultAWSCredentialsProviderChain.getInstance()Lcom/amazonaws/auth/DefaultAWSCredentialsProviderChain; Контейнер убит…

java amazon-web-services amazon-cloudwatch amazon-emr emr

20 июн '17 в 17:51

1 ответ

Как удалить кластер AWS EMR?

Я играл с AWS EMR, и теперь у меня есть несколько кластеров, которые завершаются и которые я хочу удалить: Однако очевидного варианта их удаления нет. Как мне заставить их уйти?

amazon-web-services amazon-emr emr

11 ноя '15 в 23:01

2 ответа

Настройка свойств конфигурации куста для Presto в EMR

Я пытаюсь обновить свойства разъема улья внутри /etc/presto/conf/catalog/hive.properties, Я добавил следующее: hive.s3.max-client-retries=50 hive.s3.max-error-retries=50 hive.s3.max-connections=500 hive.s3.connect-timeout=5m hive.s3.socket-timeout=5…

hive amazon-emr prestodb

16 апр '18 в 19:36

1 ответ

Как перезапустить сервис Spark в EMR после изменения настроек conf?

Я использую EMR-5.9.0 и после изменения некоторых файлов конфигурации я хочу перезапустить службу, чтобы увидеть эффект. Как мне этого добиться? Я попытался найти название службы, используя список initctl, как я видел в других ответах, но не повезло…

apache-spark amazon-emr emr

12 окт '17 в 12:24

1 ответ

Как настроить AWS EMR для использования s3 в качестве хранилища hdfs

Я пытаюсь создать кластер EMR с приведенными ниже конфигурациями, но на этапе начальной загрузки происходит сбой. Я использую EMR-релиз EMR 5.13.0 [ { "Classification": "core-site", "Properties": { "fs.defaultFS": "s3://my-s3-bucket", "fs.s3a.imp": …

hdfs amazon-emr emr elastic-map-reduce

10 май '18 в 11:35

1 ответ

Сбой конвейера данных для EMR Activity

Я пытаюсь сделать шаг зажигания на AWS Data-pipe. Я получаю следующее исключение:- amazonaws.datapipeline.taskrunner.TaskExecutionException: Не удалось завершить преобразование EMR. at amazonaws.datapipeline.activity.EmrActivity.runActivity(EmrActiv…

apache-spark amazon-emr amazon-data-pipeline

20 ноя '17 в 12:37