Описание тега aws-glue-data-catalog

1 ответ

Шаблон Грока для непечатаемых символов

У нас есть файлы, разделенные управляющим символом (backspace); 1234<0x008>john<0x08>smith 4321<0x008>steve<0x008>idle Какой бы паттерн я не использовал, я не пытался на самом деле разобрать файл, сидящий в s3, а также отладч…
1 ответ

Проблема с каталогом данных AWS Glue в качестве Metastore для Spark SQL на EMR

У меня есть кластер AWS EMR (v5.11.1) с Spark(v2.2.1) и я пытаюсь использовать каталог данных AWS Glue в качестве своего метасредства. В соответствии с рекомендациями, приведенными в официальной документации AWS (ссылка на ссылку ниже), я выполнил ш…
1 ответ

Тайм-аут работы при вызове клиентского API aws boto3

Я использую консоль клея, а не конечную точку разработки. Клеевая работа может получить доступ к каталогу и таблице клея, используя приведенный ниже код datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "glue-db", table_name = "…
04 янв '19 в 22:30
0 ответов

AWS Glue crawler - типы ключей перегородок

Я использую Spark для записи файлов в S3 в формате ORC. Также используя Athena для запроса этих данных. Я использую следующие ключи раздела: s3://bucket/company=1123/date=20190207 Как только я запускаю сканер Glue, чтобы запустить его, все работает,…
0 ответов

AWS Склейка нормализации мультитенантных файлов в общую схему

У меня есть корзина S3, где хранятся все файлы в разных форматах и ​​от разных клиентов, и время от времени появляются новые файлы. Файлы от разных клиентов хранятся под CLIENT_ID вложенная папка. Внутри этих подпапок файлы имеют одинаковый формат. …
4 ответа

AWS Glue автоматическое создание рабочих мест

У меня есть скрипт pyspark, который я могу запустить в AWS GLUE. Но каждый раз, когда я создаю задание из пользовательского интерфейса и копирую свой код в задание. В любом случае я могу автоматически создавать задание из своего файла в корзине s3. …
0 ответов

Сбой работы склеивания AWS при работе с данными большого размера

Я читаю кучу gz-файлов из корзины S3 и выполняю некоторые преобразования, после чего пишу преобразованные данные в S3 в формате паркета. Я не получаю сообщение об ошибке при выполнении для меньшего числа файлов. Но когда объем данных увеличивается. …
0 ответов

Сканер AWS Glue - все записи в одном столбце с разделителем "~"

У меня есть много файлов, хранящихся в корзине S3, и я пытаюсь создать каталог данных этого файла, используя сканер клея AWS. Проблема, с которой я сталкиваюсь, заключается в том, что все записи находятся в одном столбце и разделены символом "~" (за…
2 ответа

Чтение и запись в MYSQL в AWS Glue

введите описание изображения здесь. Я могу подключиться к MYSQL во время выполнения моего кода Pyspark локально в блокноте juypter, но тот же код я получаю сообщение об ошибке связи в AWS Glue при выполнении кода. Я добавил MySQL jar в файлы jar, н…
1 ответ

Запись Spark DataFrame в таблицу Hive с помощью AWS Glue Data Cataloug

Я использую Spark 2.4.0 на EMR и пытаюсь сохранить простой Dataframe в s3, используя AWS Glue Data Catalog. Код ниже: val peopleTable = spark.sql("select * from emrdb.testtableemr") val filtered = peopleTable.filter("name = 'Andrzej'") filtered.repa…
1 ответ

Что означает этот шаблон AWS "[\u0020-\uD7FF\uE000-\uFFFD\uD800\uDC00-\uDBFF\uDFFF\t]*"?

При создании таблицы склеивания с помощью terraform я получаю следующее сообщение об ошибке at 'table.storageDescriptor.columns.5.member.type' failed to satisfy constraint: Member must satisfy regular expression pattern: [\u0020-\uD7FF\uE000-\uFFFD\…
0 ответов

Каталог клеев Aws - Как не разбивать стол с помощью каталога клеев

У меня есть структура папок S3 следующего формата, скажем: Abc/123/xyz.txt и Abc/456/jkl.txt и т. Д. Где xyz.txt и jkl.txt имеют одинаковую структуру. Я каталогизирую его, используя AWS Glue Crawler, где я передаю исходный код как: Abc / и указываю …
1 ответ

Как удалить записи об ошибках из динамического фрейма данных в клею AWS?

У меня есть динамический фрейм данных, который содержит записи об ошибках. Пожалуйста, найдите код ниже. val rawDataFrame = glueContext.getCatalogSource(database = rawDBName, tableName = rawTBLName).getDynamicFrame(); println(s"RAW_DF-----count: ${r…
1 ответ

Каталог данных клея AWS, временные таблицы и Apache Spark createOrReplaceTempView

Согласно документации по каталогу данных клея AWS https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hive-metastore-glue.html Временные таблицы не поддерживаются. Это не понятно мне или под Temporary tables Я также могу рассмотреть Temporary vi…
1 ответ

Программа Clue Crawler не может исключить файлы.csv.metadata

У меня есть место S3 s3://bucket-name/folder-name/ которая состоит из подпапки, имя которой генерируется динамически, которая содержит фразу _Top10InvoiceIds, Эта подпапка состоит из .csv а также .csv.metadata файлы. Я использую сканер клея, чтобы с…
19 фев '19 в 08:16
1 ответ

Добавить груз в AWS Glue

Мне нужно выполнить дополнительную загрузку в S3 Bucket. Каждый день новый файл.gz сбрасывается в папку S3, и сканер клея считывает данные и обновляет их в каталоге данных. Задание Scala AWS Glue выполняется и фильтрует данные только за текущий день…
1 ответ

Как преобразовать сжатые файлы без заголовков, разделенные по конвейеру, файлы, хранящиеся в S3, в паркет с помощью AWS Glue

В настоящее время у меня есть несколько тысяч сжатых GZIP-файлов без заголовка в формате S3 на S3 общей стоимостью ~10 ТБ с той же схемой. Как лучше всего в AWS Glue (1) добавить файл заголовка, (2) преобразовать в формат паркета, разбитый по неделя…
0 ответов

Клей AWS от SQLServer, размещенного в EC2, на RDS PostGres

Мы пытаемся переместить небольшой набор данных для аналитических целей из основной производственной базы данных. Я думал, что использование клея для подключения сервисов имело бы смысл, и все соединения JDBC были настроены без проблем. Когда я пытаю…
0 ответов

DynamicFrame разрешает выбор между массивом и структурой

Я использую AWS Glue для сканирования XML-файлов и добавления их в таблицу базы данных Glue. DynamicFrame Я использую идентифицирует несколько вариантов в схеме XML. Я могу решить большинство из них, но есть один случай, который я не могу понять. Со…
1 ответ

AWS Glue Crawler Невозможно классифицировать файлы CSV

Я не могу получить классификатор сканера по умолчанию или пользовательский классификатор для работы со многими моими файлами CSV. Классификация указана как "НЕИЗВЕСТНО". Я попытался перезапустить существующие классификаторы, а также создать новые. К…