Описание тега amazon-emr
Amazon Elastic MapReduce (Amazon EMR) - это веб-сервис, который позволяет компаниям, исследователям, аналитикам данных и разработчикам легко и экономично обрабатывать огромные объемы данных. Он использует размещенную платформу Hadoop, работающую в масштабируемой веб-инфраструктуре Amazon Elastic Compute Cloud (Amazon EC2) и Amazon Simple Storage Service (Amazon S3).
1
ответ
ElasticMapReduce потоковый сжатый вывод
Я выполняю потоковые задания с помощью сценариев Python для карты и сокращения. Поток работ, который я создаю с помощью библиотеки boto. Я использую входные файлы gzip. Как я могу создать выходные файлы gzip?
03 ноя '14 в 23:38
1
ответ
SparkContext addFile вызывает исключение FileNotFoundException
Я пытаюсь доставить большой файл каждому исполнителю с помощью метода sparkContext.addFile. Источник этого большого файла - Amazon S3 (ПРИМЕЧАНИЕ. В случае источника HDFS все работает нормально) val context = stream.context.sparkContext context.addF…
15 авг '16 в 13:34
2
ответа
emr-5.4.0 (проблема выделения памяти для исполнителей Spark)
Я создал кластер искры (обучение, таким образом, не создал кластер с высокой памятью-процессором) с 1 главным узлом и 2 ядрами для запуска исполнителей, используя приведенный ниже конфиг Мастер:Running1m4.large (2 ядра, 8 ГБ) Core:Running2c4.large (…
23 апр '17 в 03:43
2
ответа
Работа Spark просто зависает с большими данными
Я пытаюсь запросить от s3 (15 дней данных). Я пытался запрашивать их отдельно (каждый день), он работает нормально. Хорошо работает и 14 дней. Но когда я запрашиваю 15 дней, задание продолжает работать вечно (зависает), и задача № не обновляется. Мо…
06 дек '17 в 22:10
2
ответа
Не удается запустить поток работ EMR с использованием временных учетных данных из ролей IAM EC2
У меня есть экземпляр, которому была назначена роль IAM в EC2. Я не могу создать поток заданий EMR из этого экземпляра, используя временные учетные данные, которые предоставляет экземпляр, назначенный роли, я получаю следующий ответ от API: <Erro…
17 авг '14 в 20:21
0
ответов
Как загрузить файл, присутствующий в S3, из AWS EMR на компьютер EC2, используя Java
Есть ли способ загрузить файл, который хранится на AWS S3, из экземпляра EMR в другой каталог экземпляра EC2. До сих пор я пытаюсь сделать это с помощью Java SFTP. Также пытался использовать AWS S3 Client, чтобы поместить объект в s3. Вот мой код: t…
12 апр '16 в 06:37
2
ответа
Как построить правильные аналитические панели для данных в DynamoDB?
У меня есть набор таблиц Dynamo DB. И я хотел бы разработать правильное решение для построения динамических панелей мониторинга в реальном времени (или почти в реальном времени) для данных в этих таблицах. Например, если у меня есть таблица "пользов…
30 ноя '17 в 17:35
1
ответ
Ошибка пространства кучи Java при запуске задания сходства элементов mahout в Amazon EMR
Я пытаюсь выполнить задание сходства элементов mahout на входе, состоящем из ~250 миллионов пар (строка) в кластере Amazon EMR (m3.2xLarge,10 основных узлов). Я сталкиваюсь с ошибкой размера кучи Java при выполнении задания сходства. Вещи, которые я…
06 янв '15 в 10:01
2
ответа
Улей на свече на амазонке EMR
Я попробовал следующую команду в улье: set hive.execution.engine=spark; но получаю ошибку, когда я запускаю любой запрос после установки механизма исполнения на Amazon EMR: Exception in thread "main" java.lang.NoClassDefFoundError: scala/collection/…
02 мар '18 в 16:41
0
ответов
Spark streaming: Output Op Duration больше продолжительности задания
Я использую приложение потоковой передачи искры на EMR. Я замечаю на консоли, Output Op Duration на порядки выше фактического Job Duration, Что делает Spark Output Op Duration - Job Duration знак равно delta? Вот delta ~2,5 минуты, что недопустимо
02 мар '18 в 05:07
2
ответа
Amazon Redshift таблица на внешнюю таблицу в S3 каждый час
Я хотел бы экспортировать данные из таблицы Amazon Redshift во внешнюю таблицу, хранящуюся в Amazon S3. Каждый час я хочу экспортировать строки из источника Redshift во внешний целевой объект таблицы. Какие варианты существуют в AWS для достижения э…
10 май '18 в 09:16
4
ответа
Добавление заголовков столбцов в набор результатов куста
Я использую скрипт улья в Amazon EMR для анализа некоторых данных. И я переношу вывод в Amazon s3 bucket. Теперь результаты скрипта куста не содержат заголовков столбцов. Я также пытался использовать это: set hive.cli.print.header=true; Но это не по…
28 фев '13 в 15:37
2
ответа
Spark 2.3.1 AWS EMR не возвращает данные для некоторых столбцов, но работает в Афине / Престо и Спектруме
Я использую PySpark на Spark 2.3.1 на AWS EMR (Python 2.7.14) spark = SparkSession \ .builder \ .appName("Python Spark SQL data source example") \ .config("hive.metastore.client.factory.class", "com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalo…
13 сен '18 в 07:05
1
ответ
Передача конфигурации улья с помощью aws emr cli
Я следую за документом: http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr-dev-create-metastore-outside.html и пытаюсь создать кластер emr с помощью awscli == 1.10.38. Я использую следующую команду, как указано в документации: aws e…
20 авг '16 в 02:42
0
ответов
Не удалось опубликовать в CloudWatch: Ошибка при запуске child: java.lang.NoSuchMethodError:
Я пытаюсь отправить сообщение в Cloudwatch с моей работы EMR, но получаю сообщение об ошибке от stderr: Ошибка: com.amazonaws.auth.DefaultAWSCredentialsProviderChain.getInstance()Lcom/amazonaws/auth/DefaultAWSCredentialsProviderChain; Контейнер убит…
20 июн '17 в 17:51
1
ответ
Как удалить кластер AWS EMR?
Я играл с AWS EMR, и теперь у меня есть несколько кластеров, которые завершаются и которые я хочу удалить: Однако очевидного варианта их удаления нет. Как мне заставить их уйти?
11 ноя '15 в 23:01
2
ответа
Настройка свойств конфигурации куста для Presto в EMR
Я пытаюсь обновить свойства разъема улья внутри /etc/presto/conf/catalog/hive.properties, Я добавил следующее: hive.s3.max-client-retries=50 hive.s3.max-error-retries=50 hive.s3.max-connections=500 hive.s3.connect-timeout=5m hive.s3.socket-timeout=5…
16 апр '18 в 19:36
1
ответ
Как перезапустить сервис Spark в EMR после изменения настроек conf?
Я использую EMR-5.9.0 и после изменения некоторых файлов конфигурации я хочу перезапустить службу, чтобы увидеть эффект. Как мне этого добиться? Я попытался найти название службы, используя список initctl, как я видел в других ответах, но не повезло…
12 окт '17 в 12:24
1
ответ
Как настроить AWS EMR для использования s3 в качестве хранилища hdfs
Я пытаюсь создать кластер EMR с приведенными ниже конфигурациями, но на этапе начальной загрузки происходит сбой. Я использую EMR-релиз EMR 5.13.0 [ { "Classification": "core-site", "Properties": { "fs.defaultFS": "s3://my-s3-bucket", "fs.s3a.imp": …
10 май '18 в 11:35
1
ответ
Сбой конвейера данных для EMR Activity
Я пытаюсь сделать шаг зажигания на AWS Data-pipe. Я получаю следующее исключение:- amazonaws.datapipeline.taskrunner.TaskExecutionException: Не удалось завершить преобразование EMR. at amazonaws.datapipeline.activity.EmrActivity.runActivity(EmrActiv…
20 ноя '17 в 12:37