Описание тега amazon-emr

Amazon Elastic MapReduce (Amazon EMR) - это веб-сервис, который позволяет компаниям, исследователям, аналитикам данных и разработчикам легко и экономично обрабатывать огромные объемы данных. Он использует размещенную платформу Hadoop, работающую в масштабируемой веб-инфраструктуре Amazon Elastic Compute Cloud (Amazon EC2) и Amazon Simple Storage Service (Amazon S3).
1 ответ

ElasticMapReduce потоковый сжатый вывод

Я выполняю потоковые задания с помощью сценариев Python для карты и сокращения. Поток работ, который я создаю с помощью библиотеки boto. Я использую входные файлы gzip. Как я могу создать выходные файлы gzip?
03 ноя '14 в 23:38
1 ответ

SparkContext addFile вызывает исключение FileNotFoundException

Я пытаюсь доставить большой файл каждому исполнителю с помощью метода sparkContext.addFile. Источник этого большого файла - Amazon S3 (ПРИМЕЧАНИЕ. В случае источника HDFS все работает нормально) val context = stream.context.sparkContext context.addF…
15 авг '16 в 13:34
2 ответа

emr-5.4.0 (проблема выделения памяти для исполнителей Spark)

Я создал кластер искры (обучение, таким образом, не создал кластер с высокой памятью-процессором) с 1 главным узлом и 2 ядрами для запуска исполнителей, используя приведенный ниже конфиг Мастер:Running1m4.large (2 ядра, 8 ГБ) Core:Running2c4.large (…
23 апр '17 в 03:43
2 ответа

Работа Spark просто зависает с большими данными

Я пытаюсь запросить от s3 (15 дней данных). Я пытался запрашивать их отдельно (каждый день), он работает нормально. Хорошо работает и 14 дней. Но когда я запрашиваю 15 дней, задание продолжает работать вечно (зависает), и задача № не обновляется. Мо…
06 дек '17 в 22:10
2 ответа

Не удается запустить поток работ EMR с использованием временных учетных данных из ролей IAM EC2

У меня есть экземпляр, которому была назначена роль IAM в EC2. Я не могу создать поток заданий EMR из этого экземпляра, используя временные учетные данные, которые предоставляет экземпляр, назначенный роли, я получаю следующий ответ от API: <Erro…
17 авг '14 в 20:21
0 ответов

Как загрузить файл, присутствующий в S3, из AWS EMR на компьютер EC2, используя Java

Есть ли способ загрузить файл, который хранится на AWS S3, из экземпляра EMR в другой каталог экземпляра EC2. До сих пор я пытаюсь сделать это с помощью Java SFTP. Также пытался использовать AWS S3 Client, чтобы поместить объект в s3. Вот мой код: t…
12 апр '16 в 06:37
2 ответа

Как построить правильные аналитические панели для данных в DynamoDB?

У меня есть набор таблиц Dynamo DB. И я хотел бы разработать правильное решение для построения динамических панелей мониторинга в реальном времени (или почти в реальном времени) для данных в этих таблицах. Например, если у меня есть таблица "пользов…
1 ответ

Ошибка пространства кучи Java при запуске задания сходства элементов mahout в Amazon EMR

Я пытаюсь выполнить задание сходства элементов mahout на входе, состоящем из ~250 миллионов пар (строка) в кластере Amazon EMR (m3.2xLarge,10 основных узлов). Я сталкиваюсь с ошибкой размера кучи Java при выполнении задания сходства. Вещи, которые я…
06 янв '15 в 10:01
2 ответа

Улей на свече на амазонке EMR

Я попробовал следующую команду в улье: set hive.execution.engine=spark; но получаю ошибку, когда я запускаю любой запрос после установки механизма исполнения на Amazon EMR: Exception in thread "main" java.lang.NoClassDefFoundError: scala/collection/…
02 мар '18 в 16:41
0 ответов

Spark streaming: Output Op Duration больше продолжительности задания

Я использую приложение потоковой передачи искры на EMR. Я замечаю на консоли, Output Op Duration на порядки выше фактического Job Duration, Что делает Spark Output Op Duration - Job Duration знак равно delta? Вот delta ~2,5 минуты, что недопустимо
02 мар '18 в 05:07
2 ответа

Amazon Redshift таблица на внешнюю таблицу в S3 каждый час

Я хотел бы экспортировать данные из таблицы Amazon Redshift во внешнюю таблицу, хранящуюся в Amazon S3. Каждый час я хочу экспортировать строки из источника Redshift во внешний целевой объект таблицы. Какие варианты существуют в AWS для достижения э…
4 ответа

Добавление заголовков столбцов в набор результатов куста

Я использую скрипт улья в Amazon EMR для анализа некоторых данных. И я переношу вывод в Amazon s3 bucket. Теперь результаты скрипта куста не содержат заголовков столбцов. Я также пытался использовать это: set hive.cli.print.header=true; Но это не по…
28 фев '13 в 15:37
2 ответа

Spark 2.3.1 AWS EMR не возвращает данные для некоторых столбцов, но работает в Афине / Престо и Спектруме

Я использую PySpark на Spark 2.3.1 на AWS EMR (Python 2.7.14) spark = SparkSession \ .builder \ .appName("Python Spark SQL data source example") \ .config("hive.metastore.client.factory.class", "com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalo…
13 сен '18 в 07:05
1 ответ

Передача конфигурации улья с помощью aws emr cli

Я следую за документом: http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr-dev-create-metastore-outside.html и пытаюсь создать кластер emr с помощью awscli == 1.10.38. Я использую следующую команду, как указано в документации: aws e…
20 авг '16 в 02:42
0 ответов

Не удалось опубликовать в CloudWatch: Ошибка при запуске child: java.lang.NoSuchMethodError:

Я пытаюсь отправить сообщение в Cloudwatch с моей работы EMR, но получаю сообщение об ошибке от stderr: Ошибка: com.amazonaws.auth.DefaultAWSCredentialsProviderChain.getInstance()Lcom/amazonaws/auth/DefaultAWSCredentialsProviderChain; Контейнер убит…
1 ответ

Как удалить кластер AWS EMR?

Я играл с AWS EMR, и теперь у меня есть несколько кластеров, которые завершаются и которые я хочу удалить: Однако очевидного варианта их удаления нет. Как мне заставить их уйти?
11 ноя '15 в 23:01
2 ответа

Настройка свойств конфигурации куста для Presto в EMR

Я пытаюсь обновить свойства разъема улья внутри /etc/presto/conf/catalog/hive.properties, Я добавил следующее: hive.s3.max-client-retries=50 hive.s3.max-error-retries=50 hive.s3.max-connections=500 hive.s3.connect-timeout=5m hive.s3.socket-timeout=5…
16 апр '18 в 19:36
1 ответ

Как перезапустить сервис Spark в EMR после изменения настроек conf?

Я использую EMR-5.9.0 и после изменения некоторых файлов конфигурации я хочу перезапустить службу, чтобы увидеть эффект. Как мне этого добиться? Я попытался найти название службы, используя список initctl, как я видел в других ответах, но не повезло…
12 окт '17 в 12:24
1 ответ

Как настроить AWS EMR для использования s3 в качестве хранилища hdfs

Я пытаюсь создать кластер EMR с приведенными ниже конфигурациями, но на этапе начальной загрузки происходит сбой. Я использую EMR-релиз EMR 5.13.0 [ { "Classification": "core-site", "Properties": { "fs.defaultFS": "s3://my-s3-bucket", "fs.s3a.imp": …
10 май '18 в 11:35
1 ответ

Сбой конвейера данных для EMR Activity

Я пытаюсь сделать шаг зажигания на AWS Data-pipe. Я получаю следующее исключение:- amazonaws.datapipeline.taskrunner.TaskExecutionException: Не удалось завершить преобразование EMR. at amazonaws.datapipeline.activity.EmrActivity.runActivity(EmrActiv…