Оптимизация на основе затрат на временных таблицах
У меня есть несколько больших фреймов данных, которые будут участвовать в нескольких левых внешних соединениях. Я преобразовал эти фреймы данных во временные таблицы, используя createOrReplaceTempView в pyspark. Теперь для оптимизации производительности этих объединений я хочу включить оптимизацию на основе затрат в Spark. Но я не могу выполнить анализ. Анализ статистики вычислений таблиц для временных таблиц, созданных с помощью createOrReplaceTempView. Какие-нибудь мысли?