Описание тега aws-glue-data-catalog
1
ответ
Шаблон Грока для непечатаемых символов
У нас есть файлы, разделенные управляющим символом (backspace); 1234<0x008>john<0x08>smith 4321<0x008>steve<0x008>idle Какой бы паттерн я не использовал, я не пытался на самом деле разобрать файл, сидящий в s3, а также отладч…
24 ноя '18 в 04:20
1
ответ
Проблема с каталогом данных AWS Glue в качестве Metastore для Spark SQL на EMR
У меня есть кластер AWS EMR (v5.11.1) с Spark(v2.2.1) и я пытаюсь использовать каталог данных AWS Glue в качестве своего метасредства. В соответствии с рекомендациями, приведенными в официальной документации AWS (ссылка на ссылку ниже), я выполнил ш…
09 янв '19 в 21:19
1
ответ
Тайм-аут работы при вызове клиентского API aws boto3
Я использую консоль клея, а не конечную точку разработки. Клеевая работа может получить доступ к каталогу и таблице клея, используя приведенный ниже код datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "glue-db", table_name = "…
04 янв '19 в 22:30
0
ответов
AWS Glue crawler - типы ключей перегородок
Я использую Spark для записи файлов в S3 в формате ORC. Также используя Athena для запроса этих данных. Я использую следующие ключи раздела: s3://bucket/company=1123/date=20190207 Как только я запускаю сканер Glue, чтобы запустить его, все работает,…
07 фев '19 в 13:56
0
ответов
AWS Склейка нормализации мультитенантных файлов в общую схему
У меня есть корзина S3, где хранятся все файлы в разных форматах и от разных клиентов, и время от времени появляются новые файлы. Файлы от разных клиентов хранятся под CLIENT_ID вложенная папка. Внутри этих подпапок файлы имеют одинаковый формат. …
15 ноя '18 в 14:59
4
ответа
AWS Glue автоматическое создание рабочих мест
У меня есть скрипт pyspark, который я могу запустить в AWS GLUE. Но каждый раз, когда я создаю задание из пользовательского интерфейса и копирую свой код в задание. В любом случае я могу автоматически создавать задание из своего файла в корзине s3. …
15 янв '19 в 06:18
0
ответов
Сбой работы склеивания AWS при работе с данными большого размера
Я читаю кучу gz-файлов из корзины S3 и выполняю некоторые преобразования, после чего пишу преобразованные данные в S3 в формате паркета. Я не получаю сообщение об ошибке при выполнении для меньшего числа файлов. Но когда объем данных увеличивается. …
23 ноя '18 в 06:37
0
ответов
Сканер AWS Glue - все записи в одном столбце с разделителем "~"
У меня есть много файлов, хранящихся в корзине S3, и я пытаюсь создать каталог данных этого файла, используя сканер клея AWS. Проблема, с которой я сталкиваюсь, заключается в том, что все записи находятся в одном столбце и разделены символом "~" (за…
20 фев '19 в 16:44
2
ответа
Чтение и запись в MYSQL в AWS Glue
введите описание изображения здесь. Я могу подключиться к MYSQL во время выполнения моего кода Pyspark локально в блокноте juypter, но тот же код я получаю сообщение об ошибке связи в AWS Glue при выполнении кода. Я добавил MySQL jar в файлы jar, н…
29 дек '18 в 11:40
1
ответ
Запись Spark DataFrame в таблицу Hive с помощью AWS Glue Data Cataloug
Я использую Spark 2.4.0 на EMR и пытаюсь сохранить простой Dataframe в s3, используя AWS Glue Data Catalog. Код ниже: val peopleTable = spark.sql("select * from emrdb.testtableemr") val filtered = peopleTable.filter("name = 'Andrzej'") filtered.repa…
30 янв '19 в 12:57
1
ответ
Что означает этот шаблон AWS "[\u0020-\uD7FF\uE000-\uFFFD\uD800\uDC00-\uDBFF\uDFFF\t]*"?
При создании таблицы склеивания с помощью terraform я получаю следующее сообщение об ошибке at 'table.storageDescriptor.columns.5.member.type' failed to satisfy constraint: Member must satisfy regular expression pattern: [\u0020-\uD7FF\uE000-\uFFFD\…
06 дек '18 в 15:54
0
ответов
Каталог клеев Aws - Как не разбивать стол с помощью каталога клеев
У меня есть структура папок S3 следующего формата, скажем: Abc/123/xyz.txt и Abc/456/jkl.txt и т. Д. Где xyz.txt и jkl.txt имеют одинаковую структуру. Я каталогизирую его, используя AWS Glue Crawler, где я передаю исходный код как: Abc / и указываю …
30 янв '19 в 18:52
1
ответ
Как удалить записи об ошибках из динамического фрейма данных в клею AWS?
У меня есть динамический фрейм данных, который содержит записи об ошибках. Пожалуйста, найдите код ниже. val rawDataFrame = glueContext.getCatalogSource(database = rawDBName, tableName = rawTBLName).getDynamicFrame(); println(s"RAW_DF-----count: ${r…
19 ноя '18 в 11:34
1
ответ
Каталог данных клея AWS, временные таблицы и Apache Spark createOrReplaceTempView
Согласно документации по каталогу данных клея AWS https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hive-metastore-glue.html Временные таблицы не поддерживаются. Это не понятно мне или под Temporary tables Я также могу рассмотреть Temporary vi…
11 дек '18 в 05:58
1
ответ
Программа Clue Crawler не может исключить файлы.csv.metadata
У меня есть место S3 s3://bucket-name/folder-name/ которая состоит из подпапки, имя которой генерируется динамически, которая содержит фразу _Top10InvoiceIds, Эта подпапка состоит из .csv а также .csv.metadata файлы. Я использую сканер клея, чтобы с…
19 фев '19 в 08:16
1
ответ
Добавить груз в AWS Glue
Мне нужно выполнить дополнительную загрузку в S3 Bucket. Каждый день новый файл.gz сбрасывается в папку S3, и сканер клея считывает данные и обновляет их в каталоге данных. Задание Scala AWS Glue выполняется и фильтрует данные только за текущий день…
28 ноя '18 в 11:29
1
ответ
Как преобразовать сжатые файлы без заголовков, разделенные по конвейеру, файлы, хранящиеся в S3, в паркет с помощью AWS Glue
В настоящее время у меня есть несколько тысяч сжатых GZIP-файлов без заголовка в формате S3 на S3 общей стоимостью ~10 ТБ с той же схемой. Как лучше всего в AWS Glue (1) добавить файл заголовка, (2) преобразовать в формат паркета, разбитый по неделя…
17 май '19 в 12:35
0
ответов
Клей AWS от SQLServer, размещенного в EC2, на RDS PostGres
Мы пытаемся переместить небольшой набор данных для аналитических целей из основной производственной базы данных. Я думал, что использование клея для подключения сервисов имело бы смысл, и все соединения JDBC были настроены без проблем. Когда я пытаю…
28 мар '19 в 11:16
0
ответов
DynamicFrame разрешает выбор между массивом и структурой
Я использую AWS Glue для сканирования XML-файлов и добавления их в таблицу базы данных Glue. DynamicFrame Я использую идентифицирует несколько вариантов в схеме XML. Я могу решить большинство из них, но есть один случай, который я не могу понять. Со…
28 май '19 в 16:50
1
ответ
AWS Glue Crawler Невозможно классифицировать файлы CSV
Я не могу получить классификатор сканера по умолчанию или пользовательский классификатор для работы со многими моими файлами CSV. Классификация указана как "НЕИЗВЕСТНО". Я попытался перезапустить существующие классификаторы, а также создать новые. К…
28 май '19 в 22:02