Описание тега emr-serverless

Amazon EMR Serverless — это новая опция в Amazon EMR, которая позволяет инженерам данных и аналитикам легко и экономично выполнять анализ данных петабайтного масштаба в облаке.
2 ответа

AWS Glue против бессерверного EMR

Недавно AWS анонсировала Amazon EMR Serverless (предварительная версия) https://aws.amazon.com/blogs/big-data/announcing-amazon-emr-serverless-preview-run-big-data-applications-without-managing-servers/ - новая очень перспективная услуга. Насколько …
1 ответ

Как запустить карту сокращения рабочих мест на EMRserverless?

Судя по документации , Amazon EMR без сервера принимает только Spark и Hive в качестве драйвера задания. Есть ли поддержка пользовательского jar-файла Hadoop для заданий по уменьшению карты на бессерверных серверах, подобных EMR?
17 июн '22 в 21:43
1 ответ

Virtualenv в aws emr без сервера

Я пытаюсь запустить некоторые задания на aws cli, используя виртуальную среду, в которой я установил некоторые библиотеки. Я следовал этому руководству ; то же самое здесь . Но когда я запускаю задание, у меня есть эта ошибка: Job execution failed, …
18 июл '22 в 12:12
2 ответа

Тайм-аут исполнителей EMR Serverless Spark

У меня есть бессерверное приложение EMR, которое по какой-то причине застревает в тайм-аутах выполнения. Я проверил все соединения s3, и они работают. Проблема возникает во время выполнения запроса в искровых таблицах. Версия EMR: emr-6.7.0 То же са…
1 ответ

EMR без сервера с использованием Docker- как установить файлы JAR

Я пытаюсь установить EMR без сервера, для чего у меня есть два варианта. Использование сценария Terraform, который позволил мне выбрать начальный размер, максимальный объем памяти и т. д., однако у меня нет возможности установить файлы jar / внешние…
16 фев '23 в 15:43
1 ответ

Как передать EMR Serverless PySpark entryPointArguments в качестве переменной

У меня есть задание EMR Serverless PySpark, которое я запускаю из пошаговой функции. Я пытаюсь передать SparkSubmit аргументы из entryPointArguments в виде переменных, установленных в начале пошаговой функции, т.е. today_date, source, tuningd_parame…
0 ответов

Как уменьшить задержку запуска с помощью Apache Iceberg на AWS EMR Serverless?

Я использую Apache Iceberg на Apache ERM Serverless при поддержке каталога данных AWS Glue . Следуя информации, найденной на этой странице , я использую предварительно инициализированные рабочие процессы, которые должны позволить EMR «поддерживать т…
19 янв '23 в 11:22
1 ответ

Использование клиента S3A в бессерверной версии EMR

Я использую хранилище объектов, совместимое с S3 (CloudFlare R2), и пытаюсь подключиться к нему без сервера EMR. R2 требует, чтобы вы использовали правильную конечную точку и передали секретный ключ и ключ доступа. На локальной машине работает искра…
30 янв '23 в 23:03
0 ответов

AWS emr serverless --py-files с заархивированным пакетом проекта не может найти файлы deps .py

Я делаю вариант использования, когда я заархивировал файлы проекта python на S3 со структурой, такой как: Project1 --bin ---mymain.py --libs ---mylibs using in mymain.py Я отправил с помощью --py-files=s3://bucket/filename.zip бессерверное задание E…
01 янв '23 в 19:49
1 ответ

Как удалить AWSServiceRoleForAmazonEMRServerless?

Я новичок в AWS, и моя учетная запись была взломана, и для ее защиты мне посоветовали удалить роли IAM. Есть одна роль под названиемчто я не могу удалить, как говорится в сообщении об ошибке. Также я не могу редактировать политику, связанную с ролью…
22 фев '23 в 22:08
0 ответов

Бессерверное подключение AWS EMR к jdbc SQL Server

Я подключался к SQL Server с помощью приложения EMR Serverless v-6.8.0 для Spark. Итак, я протестировал код на локальной машине, а также на ec2, но когда я запустил код на этом бессерверном кластере, я получил ошибку. Примечание. В моей группе безоп…
1 ответ

Как запустить проект (пакет) Python на бессерверном сервере AWS EMR?

У меня есть проект Python с несколькими модулями, классами и файлами зависимостей (файлфайл). Я хочу запаковать его в один файл со всеми зависимостями и дать путь к файлу AWS EMR serverless, который его запустит. Проблема в том, что я не понимаю, ка…
25 окт '22 в 11:33
0 ответов

Разделитель свойств искры AWS EMR Serverless

Я пытаюсь запустить задание spark с помощью EMR Serverless, но проблема в том, что я не могу передать список jar-файлов и архивов в задание spark. Раздел свойств искры, похоже, не позволяет передавать список с разделителями-запятыми. На странице док…
14 июл '22 в 01:57
0 ответов

Как использовать GraphFrames на бессерверном сервере EMR

Резюме выполненных шагов: Загрузил скрипт python на S3. Создал виртуальную среду, которая устанавливает графические фреймы, и загрузил ее на S3. Добавил VPC в мое приложение EMR. Добавлен пакет graphframes для искровой конфигурации. Сообщение об оши…
0 ответов

Как запустить существующую бессерверную работу EMR с помощью boto3?

Из документа boto3 для start_job_run кажется, что мне нужно создавать запуск задания каждый раз, когда я хочу запустить задание. Это действительно должно так работать? Могу ли я взять идентификатор существующего задания, которое уже определено со вс…
14 дек '22 в 13:49
0 ответов

EMR Serverless Airflow Operator не разрешает использование пользовательских образов EMR

Я хочу запустить задание Spark на EMR Serverless из Airflow. Я хочу использовать Spark 3.3.0 и Scala 2.13, но версия 6.9.0 EMR поставляется со Scala 2.12. Я создал банку FAT, включающую все зависимости Spark, и она тоже не будет работать. В качестве…
0 ответов

Как передать аргументы (EntryPointArguments) в искровом задании с помощью EMR Serverless?

** Я пытаюсь передать некоторые аргументы для запуска моего скрипта pyspark с помощью параметра boto3 (emr-serverless client) EntryPointArguments, однако это вообще не работает, я хотел бы знать, делаю ли я это правильно.** **my python code is like …
0 ответов

извлечение regexp pyspark sql: литералы ParseException типа «R» в настоящее время не поддерживаются

Я использую Pyspark SQL с regexp_extract следующим образом: df = spark.createDataFrame([['id_20_30', 10], ['id_40_50', 30]], ['id', 'age']) df.createOrReplaceTempView("table") sql_statement=""" select regexp_extract(id, r'(\d+)', 1) as id from table…
0 ответов

EMR serverless не может подключиться к s3 в другом регионе

У меня есть бессерверное приложение EMR, которое не может подключиться к корзине S3 в другом регионе. Есть ли обходной путь для этого? Возможно, параметр для установки в параметрах задания или параметрах Spark при отправке нового задания. Ошибка так…
06 июл '22 в 09:20
1 ответ

Как передать переменную среды в проект, который работает на EMR Serverless?

В моем проекте PySpark я использую пакет Python, который используетDynaconfпоэтому мне нужно установить следующую переменную среды -ENV_FOR_DYNACONF = platform. Проблема в том, что я не понимаю, как передать эту переменную среды при запуске бессерве…
23 апр '23 в 14:28