Описание тега aws-glue-workflow

1 ответ

Установка библиотеки ETL AWS Glue

Проблема После настройки библиотеки AWS Glue я столкнулся с приведенной ниже ошибкой: PS C:\Users\[user]\Documents\[company]\projects\code\data-lake\etl\tealium> python visitor.py 20/04/05 19:33:14 WARN NativeCodeLoader: Unable to load native-had…
1 ответ

Доступны ли какие-либо сеансы для заданий AWS Glue?

В моем рабочем процессе AWS Glue (определенном с помощью CloudFormation) у меня есть несколько заданий (pythonshell), которые имеют повторяющуюся логику для создания некоторых параметров, таких как одна и та же строка подключения к базе данных и т. …
01 апр '20 в 09:40
0 ответов

Задание AWS-glue: данные стали нулевыми после сопоставления

Я читаю данные из s3 и делаю группировку по функциям в aws glue -> после группировки, я могу видеть группу по счетчику -> после сопоставления с целевым источником, я вижу, что количество групп равно нулю. Не могли бы вы мне помочь заранее спасибо
0 ответов

Невозможно создать триггер с помощью консоли, которая зависит от сканера в AWS Glue

Я пытаюсь создать в Glue триггер, который будет отслеживать набор моих поисковых роботов, а затем запускать задание ETL. Судя по документации, это должно быть довольно просто. Однако, когда я вхожу в консоль и пытаюсь создать условный триггер, единс…
0 ответов

Принятие данных из Salesforce Marketing Cloud в Amazon S3

Мое требование: я хочу принять данные из маркетингового облака salesforce в amazon s3, используя рабочий процесс и задание amazon glue, и запланировать выполнение задания каждый час, чтобы получить все объекты / поля из Salesforce Marketing Cloud в …
2 ответа

Для задания Glue в рабочем процессе Glue - учитывая идентификатор запуска Glue, как получить доступ к идентификатору запуска Glue Workflow?

Рабочий процесс AWS Glue связан с несколькими заданиями AWS Glue. Как получить идентификатор рабочего процесса для заданного идентификатора выполнения задания AWS Glue? Я не могу найти api в aws-cli. Обратите внимание, что я пытаюсь анализировать по…
17 ноя '20 в 00:25
0 ответов

Рабочий процесс AWS glue: можно ли передавать аргументы от вызывающего в рабочий процесс?

Я пытаюсь вызвать рабочий процесс клея в узле с помощью следующего кода. Проблема в том, что я получаю сообщение об ошибке, что аргументы являются неожиданным параметром. Я знаю, что можно использовать свойства по умолчанию с рабочим процессом клея,…
0 ответов

AWS Glue: столбец "column_name" не найден в схеме

Я пытаюсь создать задание ETL в AWS Glue. Сценарий использования следующий: когда столбец добавляется в одну из исходных таблиц после выполнения задания ETL, и когда мы пытаемся повторно запустить задание etl, задание etl терпит неудачу, говоря, что…
0 ответов

AWS Glue- происхождение данных и отслеживание вакансий

Есть ли способ отслеживать, что делает каждое задание, создаваемое в AWS Glue? Например, если задания, выполняющие одно и то же действие, создаются дважды, происхождение данных при каждом преобразовании?
1 ответ

Присоединение триггера Glue к рабочему процессу в CDK

Я создал рабочий процесс и триггер в CDK, но когда я смотрю на консоль, рабочий процесс пуст. Есть идеи о том, как привязать мой триггер к моему рабочему процессу? my_workflow = glue.CfnWorkflow( self, "MyWorkflow" ) my_trigger = glue.CfnTrigger( se…
1 ответ

Как импортировать / загружать данные из файлов csv в корзине s3 в Redshift с помощью AWS Glue без использования команды копирования

Входные файлы, содержащие данные о продажах, будут отправляться в корзину s3 в формате csv в день максимум 5 файлов один раз в определенное время. Используя Склейте данные файлов csv для загрузки в Redshift. Перед загрузкой в ​​Redshift необходимы п…
0 ответов

Преобразование нескольких столбцов источника данных в один столбец DataTarget как объект JSON в AWS GLUE с помощью S3

Я новичок в сервисах AWS и использую AWS Glue для работы с ETL. Мой источник данных и цель взяты из корзины S3 (файлы .csv). Здесь мне нужно преобразовать некоторые столбцы источника данных (несколько) в один столбец в файле DataTarget в формате мас…
0 ответов

AWS Glue Workflow получает статус «Завершено» даже при ошибках задания Glue.

Я создаю Glue Workflow с помощью CDK, как показано ниже. Он состоит из клеев и краулеров. Можно ли пометить статус рабочего процесса как Errorкогда какой-либо из компонентов выходит из строя? В настоящее время он всегда помечен как Completed. const …
0 ответов

Преобразуйте таблицу DynamoDB в csv и сохраните ее в s3 с помощью AWS Glue Jobs

Я пытаюсь преобразовать таблицу DynamoDB в csv и сохранить ее в s3 с помощью AWS Glue Jobs. Я пробовал следующий сценарий import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context import SparkConte…
1 ответ

Сколько конвейеров я могу создать в AWS Glue?

Я не могу найти квоты ограничения трубопровода. Кто-нибудь знает, сколько конвейеров данных я могу создать в AWS Glue по умолчанию? (ссылка, нужен источник)
0 ответов

Зависимость сопоставления AWS Glue от заданий из разных рабочих процессов

Я хочу запускать задание только после того, как определенное задание будет выполнено из другого рабочего процесса. Бывший. Предположим, у меня есть 4 работы job1, job2, job3, job4. Я создал рабочий процесс - workflow1 с job1 и job2.Я создал другой р…
2 ответа

AWS Glue - могут ли условные триггеры срабатывать с условными заданиями из другого рабочего процесса?

Я использую сервис AWS Glue с двумя отдельными рабочими процессами (скажем, рабочий процесс A и рабочий процесс B). Я создал триггер условного типа в рабочем процессе B, который наблюдает за заданиями в рабочем процессе A и предположительно срабатыв…
0 ответов

В рабочем процессе AWS glue условный триггер не срабатывает после того, как все отслеживаемые события завершились успешно.

В рабочем процессе AWS я создал триггер, который будет следить за состоянием УСПЕШНО для 4 разных заданий. Если они будут успешными, он вызовет другое задание склеивания. Я проверил статус заданий, они успешно выполнены. Но триггер не срабатывает по…
1 ответ

Как отладить задание AWS Glue pyspark

У меня есть задание aws glue pyspark, которое долго выполняется после определенной команды. В журнал ничего не записывается после этой команды, даже после простого оператора «print hello». Как я могу отладить задание aws glue pyspark, которое выполн…
1 ответ

Ошибка усечения данных в задании aws glue при передаче данных из S3 в Aurora

Я пытаюсь перенести свои данные из корзины S3 (address.csv) в AWS Aurora (MySQL) с помощью AWS Glue. Когда я использую следующий сценарий для передачи, в одном из столбцов с именем «po_box_number», который является varchar длиной 10, выдается сообще…