Эффективный способ вывода файлов из Spark в S3 и RDS

Я использую приложение AWS EMR Spark, которое должно выводить результат в AWS S3 и AWS RDS, однако это занимает очень много времени (даже при включенных конфигурациях оптимизации). В некоторых публикациях предлагается сначала записать вывод в HDFS и переместить его в S3 с помощью S3DistCp, а затем записать его в RDS с помощью Sqoop, но затем мне придется поддерживать файлы HDFS. Что было бы наиболее оптимальным решением для этой проблемы?

Спасибо

apache-spark amazon-s3 emr

Источник

user1206923 25 янв '18 в 12:42

0 ответов

Другие вопросы по тегам apache-spark amazon-s3 emr