Spark SQL CBO - как Spark CBO вычисляет стоимость соединения, когда оба моих файла находятся в S3
Я новичок в Spark. Я наткнулся на Spark SQL и использование CBO для планирования запросов.
Я понимаю, что если я сохранил данные в базе данных хранилища искр и проанализировал их (вычислить статистику), CBO рассчитает стоимость и создаст план запроса.
Учитывая, что Spark является вычислительным движком в памяти, как Spark знает и рассчитывает затраты, если мои наборы данных находятся в s3, и я хочу сделать некоторые преобразования и присоединиться к ним в конце.
вычисляет ли Spark статистику во время выполнения после чтения данных в память? или у него есть другие способы оценки данных статистики?