Сбой задания AWS GLUE при работе с разделенными файлами Parquet во вложенных папках s3

Question

Сбой задания AWS GLUE при работе с разделенными файлами Parquet во вложенных папках s3

Я получаю следующую ошибку при выполнении задания GLUE над разделенными файлами паркета. Невозможно определить схему для паркета. Должен быть указан вручную

Я настроил свой сканер и успешно получил схему для моих файлов паркета. Я могу просмотреть данные в Афине. Я создал схему вручную на моей целевой Redshift.

Я могу загрузить файлы через КЛЕЙ в Redshift, если все мои данные находятся только в одной папке. НО, когда я указываю на папку, в которой есть вложенные папки, например, папка X - имеет 04 и 05 - задание GLUE завершается неудачно с сообщением Невозможно определить схему для Parquet. Должен быть указан вручную

Что странно, так как работает, если я положу все эти файлы в одну папку?

0

schema folder parquet glue

Источник

user4378537 17 янв '19 в 12:48

2 ответа

Решение

Если вы укажете прямо на папку раздела, то папка раздела больше не будет столбцом в схеме таблицы. Лучше использовать предикат pushdown - https://aws.amazon.com/blogs/big-data/work-with-partitioned-data-in-aws-glue/, указывая на верхнюю папку.

0

Источник

user7613340 22 янв '19 в 17:09

Другие вопросы по тегам schema folder parquet glue

user4378537 18 янв '19 в 11:56 2019-01-18 11:56 · Accepted Answer · 2019-01-18 11:56

Я нашел решение здесь - это работает для меня Firehose JSON -> S3 Parquet -> ETL Spark, ошибка: невозможно определить схему для Parquet

Это scala-версия работы с клеем ETL

0

Источник

user4378537 18 янв '19 в 11:56