ORC Format сканирует все таблицы в каждом запросе

Question

ORC Format сканирует все таблицы в каждом запросе

Я создал свой первый стол орков в Афине.

CREATE EXTERNAL TABLE `orc_test`(
 `hexid` string,
 `version` int,
 `ts` int,
 `campaignid` int,
 `sourceuid` string,
 `publisherid` string,
 `adslot` string,
 `share` double,
 `earn` double,
 `spent` double,
 `rebate` double,
 `payout` double,
 `cost` double,
 `ip` string,
 `useragent` string,
 `referer` string,
 `param1` string,
 `param2` string,
 `param3` string,
 `param4` string,
 `param5` string,
 `param6` string,
 `appid` string,
 `bundleid` string,
 `deviceid` string,
 `uuid` string,
 `callbackurl` string)
PARTITIONED BY (
 `year` string,
 `month` string,
 `day` string,
 `hour` string,
 `minute` string) 
STORED AS orc
LOCATION
 ‘s3://someplace/orc_2’
TBLPROPERTIES (‘orc.compress’=‘SNAPPY’)

Когда я делаю запрос в поисках конкретных данных (например, hexid). Запрос сканирует всю таблицу. Будучи столбчатой таблицей, не будет ли она выполнять поиск только по столбцу hexId без сканирования всей таблицы?

Я думаю, что я что-то упустил.

Спасибо!

pd: извините за мой английский!

1

performance amazon-athena orc snappy

Источник

user3042194 23 мар '18 в 15:05

1 ответ

Другие вопросы по тегам performance amazon-athena orc snappy

user3587167 24 мар '18 в 20:38 2018-03-24 20:38 · Answer 1 · 2018-03-24 20:38

Я полагаю, что вы уменьшите количество отсканированных данных только тогда, когда будете использовать столбцы разделов в предложении WHERE, чтобы Афина могла определить подмножество разделов для сканирования. В определении вашей таблицы hexid не является полем раздела, поэтому Афина должна отсканировать весь набор данных, чтобы определить строки.

См. Разделение данных в Документах Athena для получения дополнительной информации.

user11933821 21 авг '19 в 06:33 2019-08-21 06:33 · Answer 2 · 2019-08-21 06:33

Пожалуйста, взгляните на этот пост: https://forums.aws.amazon.com/message.jspa?messageID=841338 Кажется, что доступность чтения столбцов зависит от размера полосы ORC. По умолчанию в Presto установлено значение 8 МБ (а Athena использует Presto), ваш файл ORC должен содержать полосы размером более 8 МБ. Ниже этого предела будет прочитан весь файл.

AWS Athena не имеет этой проблемы с файлами Parquet. Однако будьте осторожны со сложными типами данных паркета:

"Когда вы запрашиваете столбцы со сложными типами данных (массив, карта, структура) и используете Parquet для хранения данных, Athena в настоящее время читает всю строку данных, а не выборочно читает только указанные столбцы, как ожидалось. Это известная проблема.. "(все ограничения: https://docs.aws.amazon.com/athena/latest/ug/other-notable-limitations.html)