Укажите свойства паркета pyspark

Как указать размер паркетного блока и размер страницы в PySpark? Я искал везде, но не могу найти документацию для вызовов функций или библиотек импорта.

1 ответ

Решение

Согласно архивам спарк-пользователей

sc.hadoopConfiguration.setInt("dfs.blocksize", some_value)
sc.hadoopConfiguration.setInt("parquet.block.size", some_value)

так в PySpark

sc._jsc.hadoopConfiguration().setInt("dfs.blocksize", some_value)
sc._jsc.hadoopConfiguration().setInt("parquet.block.size", some_value)
Другие вопросы по тегам