Описание тега aws-glue-spark
1
ответ
Ошибка при создании таблицы с именем столбца, содержащим точку (.) В Amazon Athena, даже после экранирования точки с помощью обратных кавычек (`)
Согласно https://docs.aws.amazon.com/athena/latest/ug/tables-databases-columns-names.html, Специальные символы Специальные символы, кроме подчеркивания (_), не поддерживаются. Дополнительные сведения см. В документации DDL Apache Hive LanguageManual…
26 июн '20 в 15:39
0
ответов
Задание AWS-glue: данные стали нулевыми после сопоставления
Я читаю данные из s3 и делаю группировку по функциям в aws glue -> после группировки, я могу видеть группу по счетчику -> после сопоставления с целевым источником, я вижу, что количество групп равно нулю. Не могли бы вы мне помочь заранее спасибо
22 июл '20 в 15:02
2
ответа
Проблема с производительностью Spark - запись разделов в S3 как отдельных файлов
Я запускаю искровое задание, задача которого - сканировать большой файл и разбивать его на более мелкие. Файл находится в формате Json Lines, и я пытаюсь разбить его по определенному столбцу (id) и сохранить каждый раздел как отдельный файл на S3. Р…
01 авг '20 в 07:26
0
ответов
Проблема с локальным запуском задания aws glue
Я пытаюсь выполнить задание по склеиванию локально, но у меня возникла проблема, когда я запускаю свой скрипт, возникает исключение: py4j.protocol.Py4JJavaError: An error occurred while calling o47.getDynamicFrame. : java.lang.IllegalAccessError: tr…
11 авг '20 в 02:25
2
ответа
Как переопределить данные s3 с помощью задания Glue в AWS
У меня есть таблица db динамо, и я отправляю данные db динамо в s3, используя задание клея. Каждый раз, когда выполняется задание склейки для обновления новых данных в s3, но оно также добавляет старые данные. Он должен переопределить старые данные.…
23 май '20 в 12:04
1
ответ
Выполнение заданий склейки AWS в выходных данных контейнера докеров: "com.amazonaws.SdkClientException: не удалось подключиться к конечной точке службы:"
Я использую Docker для разработки локальных заданий по связыванию AWS (с pyspark). У меня есть файл python (song_data.py), содержащий задание aws glue, которое использует класс GlueContext. Когда я бегуgluesparksubmit glue_etl_scripts/song_data.py -…
24 июн '20 в 05:39
2
ответа
Как запускать параллельные потоки в AWS Glue PySpark?
У меня есть искровая работа, которая просто извлекает данные из нескольких таблиц с одинаковыми преобразованиями. В основном цикл for, который выполняет итерацию по списку таблиц, запрашивает таблицу каталога, добавляет временную метку, а затем отпр…
03 июл '20 в 20:00
1
ответ
Конечная точка разработки AWS Glue не работает должным образом
Я пытаюсь использовать конечную точку разработки для интерактивного запуска и редактирования сценариев ETL, но, похоже, возникают некоторые проблемы в конечной точке разработки сразу после ее создания, поскольку я получаю ошибки в scala /python REPL…
16 июл '20 в 15:51
1
ответ
Как выполнить запись в несколько корзин S3 на основе различных значений фрейма данных в задании AWS Glue?
У меня есть фреймворк с account_idстолбец. Я хочу сгруппировать все отдельныеaccount_idстрок и записывать в разные корзины S3. Запись в новую папку для каждогоaccount_id в пределах заданного ведра S3 тоже работает.
06 авг '20 в 18:20
1
ответ
Конфигурация оболочки AWS Glue Python DPU
Изменяется ли настройка 1 dpu, когда я использую оболочку glue python вместо glue spark?. Недавно я увидел сообщение " Максимальное количество одновременных задач в 1 DPU в AWS Glue", и я увидел, что речь идет об искре клея, но не об оболочке python…
12 авг '20 в 10:54
1
ответ
AWS Glue - выравнивает глубоко вложенный JSON
Я хотел бы знать, есть ли способ сгладить глубоко вложенный JSON с помощью задания Glue ETL? В нем есть вложенные массивы. Я попытался запустить искатель Glue на JSON, который вернул каталог только с одним полем PerPlayer с типом данных struct. Долж…
18 авг '20 в 21:53
2
ответа
проблема вывода схемы задания склеивания
Требование: мне нужна работа по склеиванию, чтобы получить данные aws-Dynamodb(вложенная структура-комбинация карт и списка) в s3. Мой подход: во-первых, я использовал динамический фрейм, чтобы собрать все данные из Dynamodb в один динамический фрей…
25 авг '20 в 01:12
1
ответ
Можно ли записать в RDS raw sql (PostgreSQL) с помощью оболочки AWS/Glue/Spark?
У меня есть клей / соединение для базы данных RDS/PostgreSQL, предварительно созданной с помощью CloudFormation, которая отлично работает в Glue/Scala/Sparkshell через getJDBCSink API для записи DataFrame в эту БД. Но также мне нужно записать в тот …
19 май '20 в 13:59
2
ответа
Должен ли я каждый раз запускать краулер Glue для получения последних данных?
У меня есть корзина S3 с именем Сотрудник. Каждые три часа я буду получать файл в корзине с прикрепленной к нему меткой времени. Я буду использовать задание Glue, чтобы переместить файл из S3 в Redshift с некоторыми преобразованиями. Мой входной фай…
23 июн '20 в 21:29
1
ответ
Проблемы с использованием mergeDynamicFrame в AWS Glue
Мне нужно объединить два динамических кадра на Glue. Я попытался использовать функцию mergeDynamicFrame, но получаю ту же ошибку: AnalysisException: "не удается разрешить"id'заданные столбцы ввода: [];;\n'Project ['id]\n+- LogicalRDD false\n" Прямо …
03 июл '20 в 03:56
1
ответ
AWS Glue Spark submit use Spark avro
Как указать / передать параметры пакетов в задание AWS glue spark? Я использую Glue версии 1, которая поддерживает Spark 2.4.3, и хочу использовать Spark avro для чтения некоторых файлов avro.
14 июл '20 в 18:48
0
ответов
aws glue закладка нескольких папок за одно задание не работает
У меня такой код работы: sc = SparkContext() glueContext = GlueContext(sc) s3_paths = ['01', '02', '03'] #these paths are in the same folder and are partitioned under the source_path s3_source_path = 'bucket_name/' for sub_path in s3_paths : s3_path…
30 июл '20 в 13:41
1
ответ
PySpark запрашивает имя одного столбца со значением, присутствующим в другом столбце
Input_pyspark_dataframe: id name collection student.1.price student.2.price student.3.price 111 aaa 1 100 999 232 222 bbb 2 200 888 656 333 ccc 1 300 777 454 444 ddd 1 400 666 787 output_pyspark_dataframe id name collection price 111 aaa 1 100 222 b…
20 авг '20 в 11:46
0
ответов
Как выбрать значения из столбца, в котором есть данные массива
+--------------------+--------------------+ | _VALUE| paraarr| +--------------------+--------------------+ |Archer, Edward Pa...|[, [[, Arbitrator...| |Archer, Edward Pa...|[, [[, Member:],,...| |Archer, Edward Pa...|[, [[, Experience...| |Archer, …
20 май '20 в 12:35
3
ответа
Объединение двух фреймов данных в Spark Scala на основе условия ИЛИ
У меня есть два фрейма данных: 1) Учетные записи и 2) Клиенты. Схема счетов такая: Name Id Telehone Mob email AR 1 123 1234 test1@gmail.com BR 2 213 4123 test2@gmail.com CR 3 231 3214 test3@gmail.com KR 4 132 1324 test4@gmail.com Второй стол Клиенты…
19 июл '20 в 14:51