В чем разница между s3 select и athena

Я пытаюсь понять, в чем разница между сервисом aws athena и недавно выпущенным s3 select (все еще в режиме предварительного просмотра). И как разные случаи для обоих? Кажется, что оба помогают в выборе частичных данных от s3.

7 ответов

Также похоже, что нам не хватает одной важной вещи:

S3 Select работает только с одним объектом, в то время как Athena выполняет запросы по нескольким путям, которые будут включать все файлы по этому пути.

Вы можете рассматривать AWS S3 Select как экономически эффективную оптимизацию хранилища, которая позволяет извлекать данные, соответствующие предикату в S3, и ледниковую фильтрацию, также называемую фильтрацией вниз.

AWS Athena - это полностью управляемый аналитический сервис, который позволяет запускать произвольные запросы, совместимые с ANSI SQL - группировать по, иметь, оконные и гео-функции, SQL DDL и DML.

Amazon Athena:Amazon Athena - это служба запросов, которая упрощает анализ данных, хранящихся в S3, с использованием стандартного SQL.Athena является бессерверной, поэтому нет инфраструктуры для настройки или управления, платите только за запросы. Он автоматически масштабируется - параллельное выполнение запросов позволяет получать более быстрые результаты даже с большими наборами данных и сложными запросами.

варианты использования:Athena может использоваться для обработки журналов, выполнения специального анализа и выполнения интерактивных запросов и объединений. он запускает запросы по нескольким путям, которые включают все файлы по этому пути.

S3 Select:S3 Select - это функция S3. Она работает путем извлечения подмножества данных объекта (с использованием простых выражений SQL) вместо всего объекта, размер которого может составлять до 5 терабайт.s3 select запускает запросы к одному объекту за раз в корзине s3.

Вывод:Athena может использоваться для сложных запросов к файлам, спам которых несколько папок в сегменте S3. Выбор S3 может использоваться для простых запросов, основанных на одном объекте.

Афина (из тех немногих, что я ей использовал) больше предназначена для использования в качестве инструмента бизнес-отчетности или анализа при поддержке S3.

Похоже, что в S3 select используется та же технология, но я полагаю, что она больше ориентирована на непосредственное использование приложениями для фильтрации или разделения их наборов данных.

S3 Select позволяет легко извлекать конкретные данные из содержимого объекта с помощью простых выражений SQL. Нет необходимости извлекать весь объект. Это может использоваться с Lambda для создания безсерверных приложений и может быть связано с такими средами больших данных, как Apache Spark и Presto. Может улучшить производительность до 400%.

Amazon Athena - это интерактивный сервис запросов. Это без сервера. Нет необходимости загружать данные в Афину. Построен на Presto и работает по стандартному SQL. В основном используется для анализа больших данных.

Чтобы дать обзор в соответствии с моим пониманием:

Amazon Athena - это интерактивная служба запросов, которая позволяет легко анализировать данные в Amazon S3 с использованием стандартного SQL. Athena не имеет сервера, поэтому нет инфраструктуры для управления, и вы платите только за запросы, которые выполняете.

Основное преимущество этого на данный момент:

Athena полностью интегрирована с каталогом данных AWS Glue, вы также можете использовать полностью управляемые возможности ETL Glue для преобразования данных или преобразования их в столбчатые форматы для оптимизации затрат и повышения производительности.

Теперь, насколько S3 Select идет:

  • В настоящее время плата за использование S3 Select не взимается, пока она находится в режиме предварительного просмотра, и нет определения цены. Тем не менее, вам нужно будет обратиться по ссылке

  • В режиме предварительного просмотра S3 Select поддерживает файлы CSV, JSON и Parquet со сжатием GZIP или без него. Во время предварительного просмотра объекты, которые зашифрованы в состоянии покоя, не поддерживаются.

  • Поскольку S3 Select все еще находится в режиме предварительного просмотра, в AWS нет внутренних дел для проверки того, как используется служба. Тем не менее, я мог бы найти ссылку из блога, который может вас заинтересовать.

На мой взгляд, вы можете просмотреть это видео Twitch, которое может вам помочь.

В дополнение к ответу @abc123 S3 Select поддерживает только SELECT

https://docs.aws.amazon.com/AmazonS3/latest/dev/s3-glacier-select-sql-reference-select.html

Amazon S3 Select и S3 Glacier Select поддерживают только команду SELECT SQL. Для SELECT поддерживаются следующие стандартные предложения ANSI:

Другие вопросы по тегам