Spark SQL CBO - как Spark CBO вычисляет стоимость соединения, когда оба моих файла находятся в S3

Question

Spark SQL CBO - как Spark CBO вычисляет стоимость соединения, когда оба моих файла находятся в S3

Я новичок в Spark. Я наткнулся на Spark SQL и использование CBO для планирования запросов.

Я понимаю, что если я сохранил данные в базе данных хранилища искр и проанализировал их (вычислить статистику), CBO рассчитает стоимость и создаст план запроса.

Учитывая, что Spark является вычислительным движком в памяти, как Spark знает и рассчитывает затраты, если мои наборы данных находятся в s3, и я хочу сделать некоторые преобразования и присоединиться к ним в конце.

вычисляет ли Spark статистику во время выполнения после чтения данных в память? или у него есть другие способы оценки данных статистики?

0

apache-spark apache-spark-sql query-optimization cbo

Источник

user14665367 19 ноя '20 в 02:39

0 ответов

Другие вопросы по тегам apache-spark apache-spark-sql query-optimization cbo