Вопросы, касающиеся продукта Amazon Elastic MapReduce (EMR).
1 ответ

AWS EMR SSE Согласованный вид

Я пытаюсь создать кластер EMR в AWS с помощью команды CLI ниже, но он не создает кластер в согласованном представлении, а флаг шифрования на стороне сервера не устанавливается (fs.s3.consistent и fs.s3.enableServerSideEncryption оба имеют значение f…
05 дек '14 в 20:07
1 ответ

SparkContext addFile вызывает исключение FileNotFoundException

Я пытаюсь доставить большой файл каждому исполнителю с помощью метода sparkContext.addFile. Источник этого большого файла - Amazon S3 (ПРИМЕЧАНИЕ. В случае источника HDFS все работает нормально) val context = stream.context.sparkContext context.addF…
15 авг '16 в 13:34
2 ответа

Работа Spark просто зависает с большими данными

Я пытаюсь запросить от s3 (15 дней данных). Я пытался запрашивать их отдельно (каждый день), он работает нормально. Хорошо работает и 14 дней. Но когда я запрашиваю 15 дней, задание продолжает работать вечно (зависает), и задача № не обновляется. Мо…
06 дек '17 в 22:10
1 ответ

Ограничение ширины столбца Hive Metastore

Используя AWS EMR в версии 5.2.1 в качестве среды обработки данных, при работе с огромным файлом JSON, имеющим сложную схему со многими вложенными полями, Hive не может обработать его и выдает ошибки, так как он достигает текущего предела длины стол…
01 фев '17 в 17:42
0 ответов

Как эффективно войти из PySpark?

Мне интересно, какова лучшая практика для входа из Spark (используя Pyspark) на EMR кластер. Мы хотели бы получить какую-то обратную связь, которую мы можем проверить, чтобы увидеть, как работает работа, и нам не нужно ждать, пока работа не сработае…
06 июн '16 в 18:26
1 ответ

Передача конфигурации улья с помощью aws emr cli

Я следую за документом: http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr-dev-create-metastore-outside.html и пытаюсь создать кластер emr с помощью awscli == 1.10.38. Я использую следующую команду, как указано в документации: aws e…
20 авг '16 в 02:42
0 ответов

Не удалось опубликовать в CloudWatch: Ошибка при запуске child: java.lang.NoSuchMethodError:

Я пытаюсь отправить сообщение в Cloudwatch с моей работы EMR, но получаю сообщение об ошибке от stderr: Ошибка: com.amazonaws.auth.DefaultAWSCredentialsProviderChain.getInstance()Lcom/amazonaws/auth/DefaultAWSCredentialsProviderChain; Контейнер убит…
0 ответов

:INIT_FAILURE, не удалось создать InputInitializerManager

Я использую сервисы EMR из Amazon Web Services и пытаюсь выполнить запрос подсчета для внешней таблицы, которую я построил. Данные для таблицы хранятся в mongodb, а таблица является внешней таблицей в Hive. Запрос, который я пытаюсь выполнить, selec…
14 окт '16 в 19:17
1 ответ

Как удалить кластер AWS EMR?

Я играл с AWS EMR, и теперь у меня есть несколько кластеров, которые завершаются и которые я хочу удалить: Однако очевидного варианта их удаления нет. Как мне заставить их уйти?
11 ноя '15 в 23:01
0 ответов

Использование Spark структурированного потокового кластера

Я создавал искровое структурированное потоковое приложение и пытаюсь понять развертывание на EMR. Приложение делает следующее; Подписаться на тему Кафки Агрегировать по временному окну и идентификатору пользователя (чтобы избежать невозможности полу…
7 ответов

Pyspark --py-файлы не работают

Я использую это, как предлагает документ http://spark.apache.org/docs/1.1.1/submitting-applications.html Spsark версия 1.1.0 ./spark/bin/spark-submit --py-files /home/hadoop/loganalysis/parser-src.zip \ /home/hadoop/loganalysis/ship-test.py и конф в…
25 дек '14 в 05:46
1 ответ

Запуск mahout с использованием hadoop на EMR/EC2 Amazon

Я хочу перенести мой текущий локальный кластер hadoop в Amazon . В этом кластере hadoop я использую такие сервисы, как mahout, hbase и hive. У меня есть два варианта в Амазонке: использовать только чистые инстансы EC2 или кластер сокращения упругой …
1 ответ

Как перезапустить сервис Spark в EMR после изменения настроек conf?

Я использую EMR-5.9.0 и после изменения некоторых файлов конфигурации я хочу перезапустить службу, чтобы увидеть эффект. Как мне этого добиться? Я попытался найти название службы, используя список initctl, как я видел в других ответах, но не повезло…
12 окт '17 в 12:24
1 ответ

Как настроить AWS EMR для использования s3 в качестве хранилища hdfs

Я пытаюсь создать кластер EMR с приведенными ниже конфигурациями, но на этапе начальной загрузки происходит сбой. Я использую EMR-релиз EMR 5.13.0 [ { "Classification": "core-site", "Properties": { "fs.defaultFS": "s3://my-s3-bucket", "fs.s3a.imp": …
10 май '18 в 11:35
0 ответов

Эффективный способ вывода файлов из Spark в S3 и RDS

Я использую приложение AWS EMR Spark, которое должно выводить результат в AWS S3 и AWS RDS, однако это занимает очень много времени (даже при включенных конфигурациях оптимизации). В некоторых публикациях предлагается сначала записать вывод в HDFS и…
25 янв '18 в 12:42
1 ответ

Шаг зажигания EMR и объединить вывод в один файл

Я пытаюсь EMR искра шаг. У меня есть каталог ввода S3. Которые имеют несколько файлов: f1,f2,f3 Я добавляю шаг искры так: aws emr --region us-west-2 add-steps --cluster-id foo --steps '[{"Args":["spark-submit","--deploy-mode","cluster","--class","Js…
24 окт '17 в 02:36
1 ответ

Ошибка возврата координатора Presto 404 при подключении через драйвер Terradata odbc

Я пытаюсь подключиться к координатору Presto, который находится в кластере EMR. Я использую драйвер Terradata ODBC. Я одновременно протестировал драйвер, поместив соответствующие подробности в DSN через диалог соединений ODBC, и написал простое прил…
28 сен '16 в 20:07
1 ответ

Как вычесть в парадигме Map Reduce

У меня есть следующий набор данных s1, s2, count 1, 2, x1 1, 3, x2 1, 4, x3 2, 1, y1 2, 3, y2 2, 4, y3 3, 1, z1 3, 2, z2 Я хочу получить следующий вывод s1, s2, count 1, 2, x1-y1 1, 3, x2-z1 1, 4, x3 2, 3, y2-z2 2, 4, y3 Идея состоит в том, что s1 я…
0 ответов

Лучшие практики для развертывания приложения Spark, использующего брокер сообщений

Я создал приложение Java, которое использует сообщения посредника сообщений для запуска заданий Spark на основе параметров, отправляемых в сообщении. Я хочу развернуть приложение в кластере Spark (AWS EMR). Для этого я думал об использовании spark-s…
14 май '16 в 22:08
1 ответ

Конфигурация приложения Spark Streaming с помощью YARN

Я пытаюсь выжать каждый бит из моего кластера при настройке приложения spark, но, похоже, я не совсем все понимаю. Итак, я запускаю приложение в кластере AWS EMR с 1 главным и 2 базовыми узлами типа m3.xlarge(15 ГБ оперативной памяти и 4 vCPU для ка…
04 июл '17 в 13:49