Использование AWS EMRFS в apache spark, размещенной на ec2
Если я использую искру на ec2 (или в kubernetes), могу ли я использовать s3/emrfs вместо hdfs? Готово ли это производство и использует ли оно параллелизм для чтения / обработки данных из s3?
заранее спасибо
2 ответа
Нет, EMRFS предназначена только для EMR, простой способ сделать S3 похожим на HDFS. Для EC2 вы подключаетесь к S3, но это не так просто, как с EMR. S3 не тесно связан с EC2. Да, параллелизм применяется, но не в соответствии с местоположением данных MR, рабочим и узлом данных, который есть.
EMR использует S3 коннектор с закрытым исходным кодом с фирменными функциями "emrfs". Вы не можете видеть источник, не можете получить поддержку от кого-либо еще и не можете использовать его, кроме случаев, когда вы запускаете emr. Для независимых приложений: разъем s3a отличный, но не полная замена HDFS