Зачем AWS Athena нужно «ведро для разлива», когда она выгружает результаты в целевое местоположение S3

Question

Зачем AWS Athena нужно «ведро для разлива», когда она выгружает результаты в целевое местоположение S3

Зачем AWS Athena нужно «ведро для разлива», когда он выгружает результаты в целевое местоположение S3

      WITH
( format = 'Parquet', 
parquet_compression = 'SNAPPY', 
external_location = '**s3://target_bucket_name/my_data**' 
) 
AS
WITH my_data_2 
AS 
    (SELECT * FROM existing_tablegenerated_data" limit 10)
SELECT *
FROM my_data_2;

Поскольку у него уже есть ведро для хранения данных, зачем Афине это ведро для разлива и что оно там хранит?

5

sql amazon-web-services amazon-athena trino

Источник

user3652852 24 фев '21 в 11:54

2 ответа

Другие вопросы по тегам sql amazon-web-services amazon-athena trino

user65458 24 фев '21 в 16:33 2021-02-24 16:33 · Answer 1 · 2021-02-24 16:33

Разработчик Trino / Presto, который принимал непосредственное участие в разработке Spill.

В Trino (ранее известном как Presto SQL) термин «разлив» относится к сбросу на диск данных, которые не помещаются в память. Это дополнительная функция, позволяющая обрабатывать более крупные запросы. Конечно, если все ваши запросы требуют сброса, более эффективно просто выделить больший кластер с большим объемом памяти, но эта функциональность полезна, когда большие запросы редки.

Разлив включает в себя сохранение временных данных, а не окончательных результатов запроса. Разлитые данные повторно считываются и удаляются до завершения выполнения запроса.

user878299 02 июн '21 в 10:31 2021-06-02 10:31 · Answer 2 · 2021-06-02 10:31

Athena использует функции Lambda для подключения к внешним хранилищам данных Hive. Из-за ограничений на размер ответа функции Lambda ответы, превышающие пороговое значение, попадают в расположение Amazon S3, указанное вами при создании функции Lambda. Афина читает эти ответы напрямую из Amazon S3.

https://docs.aws.amazon.com/athena/latest/ug/connect-to-data-source-hive.html