Описание тега aws-glue-spark

Вопросы с тегом

1 ответ

Ошибка при создании таблицы с именем столбца, содержащим точку (.) В Amazon Athena, даже после экранирования точки с помощью обратных кавычек (`)

Согласно https://docs.aws.amazon.com/athena/latest/ug/tables-databases-columns-names.html, Специальные символы Специальные символы, кроме подчеркивания (_), не поддерживаются. Дополнительные сведения см. В документации DDL Apache Hive LanguageManual…

26 июн '20 в 15:39

0 ответов

Задание AWS-glue: данные стали нулевыми после сопоставления

Я читаю данные из s3 и делаю группировку по функциям в aws glue -> после группировки, я могу видеть группу по счетчику -> после сопоставления с целевым источником, я вижу, что количество групп равно нулю. Не могли бы вы мне помочь заранее спасибо

amazon-s3 aws-glue aws-glue-data-catalog aws-glue-spark aws-glue-workflow

22 июл '20 в 15:02

2 ответа

Проблема с производительностью Spark - запись разделов в S3 как отдельных файлов

Я запускаю искровое задание, задача которого - сканировать большой файл и разбивать его на более мелкие. Файл находится в формате Json Lines, и я пытаюсь разбить его по определенному столбцу (id) и сохранить каждый раздел как отдельный файл на S3. Р…

apache-spark pyspark apache-spark-sql aws-glue aws-glue-spark

01 авг '20 в 07:26

0 ответов

Проблема с локальным запуском задания aws glue

Я пытаюсь выполнить задание по склеиванию локально, но у меня возникла проблема, когда я запускаю свой скрипт, возникает исключение: py4j.protocol.Py4JJavaError: An error occurred while calling o47.getDynamicFrame. : java.lang.IllegalAccessError: tr…

pyspark aws-glue aws-glue-spark

11 авг '20 в 02:25

2 ответа

Как переопределить данные s3 с помощью задания Glue в AWS

У меня есть таблица db динамо, и я отправляю данные db динамо в s3, используя задание клея. Каждый раз, когда выполняется задание склейки для обновления новых данных в s3, но оно также добавляет старые данные. Он должен переопределить старые данные.…

amazon-s3 amazon-dynamodb aws-glue aws-glue-spark

23 май '20 в 12:04

1 ответ

Выполнение заданий склейки AWS в выходных данных контейнера докеров: "com.amazonaws.SdkClientException: не удалось подключиться к конечной точке службы:"

Я использую Docker для разработки локальных заданий по связыванию AWS (с pyspark). У меня есть файл python (song_data.py), содержащий задание aws glue, которое использует класс GlueContext. Когда я бегуgluesparksubmit glue_etl_scripts/song_data.py -…

python-3.x aws-sdk aws-glue aws-glue-spark

24 июн '20 в 05:39

2 ответа

Как запускать параллельные потоки в AWS Glue PySpark?

У меня есть искровая работа, которая просто извлекает данные из нескольких таблиц с одинаковыми преобразованиями. В основном цикл for, который выполняет итерацию по списку таблиц, запрашивает таблицу каталога, добавляет временную метку, а затем отпр…

apache-spark pyspark aws-glue aws-glue-spark

03 июл '20 в 20:00

1 ответ

Конечная точка разработки AWS Glue не работает должным образом

Я пытаюсь использовать конечную точку разработки для интерактивного запуска и редактирования сценариев ETL, но, похоже, возникают некоторые проблемы в конечной точке разработки сразу после ее создания, поскольку я получаю ошибки в scala /python REPL…

amazon-web-services aws-glue aws-glue-data-catalog aws-glue-spark aws-lake-formation

16 июл '20 в 15:51

1 ответ

Как выполнить запись в несколько корзин S3 на основе различных значений фрейма данных в задании AWS Glue?

У меня есть фреймворк с account_idстолбец. Я хочу сгруппировать все отдельныеaccount_idстрок и записывать в разные корзины S3. Запись в новую папку для каждогоaccount_id в пределах заданного ведра S3 тоже работает.

amazon-web-services amazon-s3 aws-glue aws-glue-spark

06 авг '20 в 18:20

1 ответ

Конфигурация оболочки AWS Glue Python DPU

Изменяется ли настройка 1 dpu, когда я использую оболочку glue python вместо glue spark?. Недавно я увидел сообщение " Максимальное количество одновременных задач в 1 DPU в AWS Glue", и я увидел, что речь идет об искре клея, но не об оболочке python…

python amazon-web-services aws-glue-spark

12 авг '20 в 10:54

1 ответ

AWS Glue - выравнивает глубоко вложенный JSON

Я хотел бы знать, есть ли способ сгладить глубоко вложенный JSON с помощью задания Glue ETL? В нем есть вложенные массивы. Я попытался запустить искатель Glue на JSON, который вернул каталог только с одним полем PerPlayer с типом данных struct. Долж…

pyspark aws-glue amazon-athena aws-glue-data-catalog aws-glue-spark

18 авг '20 в 21:53

2 ответа

проблема вывода схемы задания склеивания

Требование: мне нужна работа по склеиванию, чтобы получить данные aws-Dynamodb(вложенная структура-комбинация карт и списка) в s3. Мой подход: во-первых, я использовал динамический фрейм, чтобы собрать все данные из Dynamodb в один динамический фрей…

amazon-web-services dataframe pyspark aws-glue aws-glue-spark

25 авг '20 в 01:12

1 ответ

Можно ли записать в RDS raw sql (PostgreSQL) с помощью оболочки AWS/Glue/Spark?

У меня есть клей / соединение для базы данных RDS/PostgreSQL, предварительно созданной с помощью CloudFormation, которая отлично работает в Glue/Scala/Sparkshell через getJDBCSink API для записи DataFrame в эту БД. Но также мне нужно записать в тот …

postgresql amazon-web-services scala aws-glue aws-glue-spark

19 май '20 в 13:59

2 ответа

Должен ли я каждый раз запускать краулер Glue для получения последних данных?

У меня есть корзина S3 с именем Сотрудник. Каждые три часа я буду получать файл в корзине с прикрепленной к нему меткой времени. Я буду использовать задание Glue, чтобы переместить файл из S3 в Redshift с некоторыми преобразованиями. Мой входной фай…

amazon-web-services amazon-s3 aws-glue aws-glue-data-catalog aws-glue-spark

23 июн '20 в 21:29

1 ответ

Проблемы с использованием mergeDynamicFrame в AWS Glue

Мне нужно объединить два динамических кадра на Glue. Я попытался использовать функцию mergeDynamicFrame, но получаю ту же ошибку: AnalysisException: "не удается разрешить"id'заданные столбцы ввода: [];;\n'Project ['id]\n+- LogicalRDD false\n" Прямо …

dataframe amazon-s3 pyspark aws-glue aws-glue-spark

03 июл '20 в 03:56

1 ответ

AWS Glue Spark submit use Spark avro

Как указать / передать параметры пакетов в задание AWS glue spark? Я использую Glue версии 1, которая поддерживает Spark 2.4.3, и хочу использовать Spark avro для чтения некоторых файлов avro.

amazon-web-services apache-spark pyspark aws-glue aws-glue-spark

14 июл '20 в 18:48

0 ответов

aws glue закладка нескольких папок за одно задание не работает

У меня такой код работы: sc = SparkContext() glueContext = GlueContext(sc) s3_paths = ['01', '02', '03'] #these paths are in the same folder and are partitioned under the source_path s3_source_path = 'bucket_name/' for sub_path in s3_paths : s3_path…

aws-glue aws-glue-spark

30 июл '20 в 13:41

1 ответ

PySpark запрашивает имя одного столбца со значением, присутствующим в другом столбце

Input_pyspark_dataframe: id name collection student.1.price student.2.price student.3.price 111 aaa 1 100 999 232 222 bbb 2 200 888 656 333 ccc 1 300 777 454 444 ddd 1 400 666 787 output_pyspark_dataframe id name collection price 111 aaa 1 100 222 b…

python-3.x pyspark apache-spark-sql pyspark-dataframes aws-glue-spark

20 авг '20 в 11:46

0 ответов

Как выбрать значения из столбца, в котором есть данные массива

amazon-web-services aws-glue aws-glue-spark

20 май '20 в 12:35

3 ответа

Объединение двух фреймов данных в Spark Scala на основе условия ИЛИ

У меня есть два фрейма данных: 1) Учетные записи и 2) Клиенты. Схема счетов такая: Name Id Telehone Mob email AR 1 123 1234 test1@gmail.com BR 2 213 4123 test2@gmail.com CR 3 231 3214 test3@gmail.com KR 4 132 1324 test4@gmail.com Второй стол Клиенты…

scala apache-spark apache-spark-sql aws-glue aws-glue-spark

19 июл '20 в 14:51