Описание тега aws-glue

AWS Glue - это полностью управляемая служба ETL (извлечение, преобразование и загрузка), которая может классифицировать ваши данные, очищать их, обогащать и перемещать между различными хранилищами данных. AWS Glue состоит из центрального репозитория данных, известного как каталог данных AWS Glue, механизма ETL, который автоматически генерирует код Python, и планировщика, который обрабатывает разрешение зависимостей, мониторинг заданий и повторные попытки. AWS Glue является бессерверным, поэтому нет инфраструктуры для управления.
1 ответ

Клей AWS: команда не выполнена с кодом ошибки 1

Я боролся с этой ошибкой уже несколько недель. Я пробовал много разных приложений и не могу найти соответствия этой ошибке. Иногда, если я изменяю настройку закладки работы, ставя ее на паузу, включив ее или возвращая на отключенную, она начинает ра…
30 апр '18 в 14:52
1 ответ

На большом столе Prem перейти на клей Redshift AWS

У меня есть сценарий ниже, чтобы переместить все столбцы в таблицах разных размеров, от 90 до 250 миллионов записей, из локальной базы данных Oracle в AWS Redshift. Скрипт также добавляет несколько заданных столбцов аудита: add_metadata1 = custom_sp…
1 ответ

Автоматизируйте управление разделами внешних ульев / таблиц athena

В настоящее время у меня есть архитектура больших данных, где некоторые конвейеры данных генерируют данные и сохраняют их в AWS S3. У меня также есть внутреннее хранилище метаданных, где я отслеживаю каждый URL-адрес S3 и статус (указывая, является …
2 ответа

AWS Glue Crawler Классифицирует файл json как НЕИЗВЕСТНЫЙ

Я работаю над заданием ETL, которое включит файлы JSON в промежуточную таблицу RDS. Сканер, который я настроил, классифицирует файлы JSON без проблем, если они имеют размер менее 1 МБ. Если я уменьшу файл (вместо довольно печати), он классифицирует …
25 окт '17 в 15:43
1 ответ

Как взорвать внутренние массивы в структуре внутри структуры в pyspark/

Я новичок в искре. Я пытался взорвать array внутри struct, Цикл JSON немного сложен, как показано ниже. { "id": 1, "firstfield": "abc", "secondfield": "zxc", "firststruct": { "secondstruct": { "firstarray": [{ "firstarrayfirstfield": "asd", "firstar…
26 сен '18 в 23:57
0 ответов

Импорт данных файла из S3 в RDS с этапами преобразования

Я начинающий пользователь AWS, и я пытаюсь решить вариант использования, в котором мне нужно импортировать данные из CSV, которые сбрасываются в корзину S3 в RDS. У меня есть CSV-файл, который будет загружен в корзину S3, оттуда я хочу запустить соб…
0 ответов

Задание AWS Glue выполняется правильно, но возвращает ошибку об отказе в соединении

Я выполняю тестовую работу на AWS. Я читаю данные CSV из корзины S3, выполняю задание GLUE ETL и сохраняю те же данные в Amazon Redshift. Работа GLUE - это просто чтение данных из S3 и сохранение в Redshift без каких-либо изменений. Работа выполняет…
1 ответ

Ошибки поднятия метода AWS Glue show

Я использую AWS Glue для выполнения работы ETL с использованием dev-endpoint. Я попытался запустить следующий код, но получил ошибку во время выполнения. Он работал успешно, когда я запустил его несколько дней назад. Но это вызывает ошибки для новых…
09 апр '18 в 04:54
2 ответа

AWS Glue не будет переименовывать поля:

Схожу с ума по этому поводу, однако я уверен, что это что-то явно очевидное, что я упускаю из виду. ## @params: [JOB_NAME] args = getResolvedOptions(sys.argv, ['JOB_NAME']) sc = SparkContext() glueContext = GlueContext(sc) spark = glueContext.spark_…
19 июл '18 в 14:39
2 ответа

Получение дубликатов в Таблице, когда задание ETL разрушается дважды. Задание извлечения задания ETL из корзины RDS в S3

Когда задание ETL выполняется, оно выполняется должным образом, но поскольку в таблице отсутствует метка времени, оно дублирует данные при запуске того же задания ETL. Как выполнить постановку и решить эту проблему, используя Upsert или, если есть д…
2 ответа

Невозможно поместить данные / объект в корзину S3 с помощью Glue Job, когда включено шифрование KMS

У меня есть задание Glue, которое извлекает данные из одной корзины s3 и передает / помещает их в другую. Моя работа работает правильно, если я отключаю шифрование KMS, но не работаю с включенным шифрованием KMS. Ошибка: произошла ошибка при вызове …
0 ответов

Не могу преобразовать pyspark sql результат запроса в pandas

Я запускаю pyspark в кластере EMR, но получаю сообщение об ошибке при преобразовании SQL-запроса pyspark в pandas, используя следующий запрос. Я пытаюсь запросить данные в AWS Glue. Вчера сработало df = spark.sql("select * from flat_demography limit…
27 фев '19 в 10:13
2 ответа

Конвертируйте JSON, используя PySpark и фрейм данных, чтобы элементы массива находились под root

Я хочу реорганизовать следующий JSON, чтобы элементы массива в docs были под root. Пример ввода { "response":{"docs": [{ "column1":"dataA", "column2":"dataB" }, { "column1":"dataC", "column2":"dataD" }] } } Пример скрипта PySpark from pyspark.sql im…
19 сен '18 в 14:36
1 ответ

AWS Клеевой гусеничный ход

У меня есть csv со строками в кавычках, и сканер по умолчанию регистрирует таблицу с помощью LazySimpleSerde. Есть ли в любом случае, я могу программно изменить это, чтобы вместо этого использовать OpenCSVSerde?
25 янв '18 в 07:57
1 ответ

AWS Glue гусеничный считыватель GZIP информация заголовка

Я настроил сканер в Glue, который сканирует сжатые файлы CSV (формат GZIP) из корзины S3. У меня есть работа ETL, которая конвертирует этот CSV в паркет и другой гусеничный механизм, который читает файл паркета и заполняет паркетный стол. Первый ска…
21 янв '19 в 08:15
2 ответа

Более быстрое время разработки с AWS Glue

AWS Glue выглядит многообещающе, но у меня проблемы со временем цикла разработки. Если я редактирую скрипты PySpark через консоль AWS, выполнение нескольких минут занимает даже минимальный набор тестовых данных. Это затрудняет быструю итерацию, если…
01 фев '19 в 22:18
1 ответ

Перекрестный доступ к аккаунту Athena/Glue

Можно ли напрямую получить доступ к Athena и Glue в другой учетной записи через EC2/EMR? Я хочу не поддерживать каталог данных в моей учетной записи AWS и повторно использовать существующий каталог.
03 июл '18 в 11:12
0 ответов

Ошибка Pyspark, когда UDF определен вне функции, которая вызывает его: Метод __getnewargs__([]) не существует

Я видел несколько вопросов по этому поводу, но я, кажется, не понимаю, почему я получаю эту ошибку, когда моя UDF определена вне функции, которую я вызываю на моем фрейме данных. import sys from awsglue.transforms import * from awsglue.utils import …
04 дек '18 в 22:19
1 ответ

Синхронизировать все операции данных под одним и тем же инструментом

В моей компании Pentaho Kettle ежедневно выполняет работу ETL (одной машины достаточно для всех имеющихся у нас данных), что означает: чтение данных из разных, в основном реляционных баз данных, электронных таблиц и API применение преобразований и в…
0 ответов

Проверка данных из множества однопользовательских БД в одну многопользовательскую звездную схему

Я занимаюсь разработкой многопользовательской звездной схемы, содержащей данные из нескольких тысяч однопользовательских баз данных (все с одинаковой структурой) . Данные доставляются через AWS Kinesis (Firehose) и Клей. Проблема, с которой я столкн…