AWS SageMaker Spark SQL

Question

AWS SageMaker Spark SQL

Я знаю, что, например, благодаря предложению Qubole Hive, в котором используются записные книжки Zeppelin, я могу использовать Spark SQL для выполнения собственных команд SQL для взаимодействия с таблицами Hive. Я могу читать из внешних таблиц и создавать внутренние таблицы или просто выполнять специальные запросы.

Я работаю над проектом в AWS. У меня есть данные в S3, с внешними таблицами, созданными в Афине. Я нашел статьи и последовал за ними, чтобы настроить некоторые ноутбуки Jupyter, но я не понимаю, как у меня могут быть записные книжки, использующие Spark SQL. Это возможно?

Если нет, то каков наилучший механизм в экосистеме AWS для инкапсуляции логики для создания внутренних таблиц из внешних таблиц для вторичной обработки данных.

-1

apache-spark-sql jupyter-notebook amazon-athena aws-sagemaker

Источник

user3145209 05 янв '19 в 04:38

1 ответ

Решение

Другие вопросы по тегам apache-spark-sql jupyter-notebook amazon-athena aws-sagemaker

user4686192 18 янв '19 в 21:11 2019-01-18 21:11 · Accepted Answer · 2019-01-18 21:11

У вас есть два варианта:

1) запустить записные книжки Jupyter на EMR: https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-managed-notebooks.html

2) запустить блокноты Jupyter на SageMaker: https://docs.aws.amazon.com/sagemaker/latest/dg/gs.html

Оба поддерживают PySpark, поэтому вы должны иметь возможность выполнять SQL-запросы на любом бэкэнде, в котором живут ваши данные.