Преобразовать CSV в паркет в Кедро

Question

Преобразовать CSV в паркет в Кедро

У меня довольно большой CSV, который не помещается в памяти, и мне нужно преобразовать его в файл.parquet для работы с vaex.

Вот мой каталог:

raw_data:
    type: kedro.contrib.io.pyspark.SparkDataSet
    filepath: data/01_raw/data.csv
    file_format: csv

parquet_data:
    type: ParquetLocalDataSet
    filepath: data/02_intermediate/data.parquet

узел:

def convert_to_parquet(data: SparkDataSet) -> ParquetLocalDataSet:
    return data.coalesce(1)

и трубопровод:

def create_pipeline(**kwargs):
    return Pipeline(
        [
            node(
                func=convert_to_parquet,
                inputs="raw_data",
                outputs="parquet_data",
                name="data_to_parquet",
            ),
        ]
    )

Но если я сделаю kedro run Я получаю эту ошибку kedro.io.core.DataSetError: Failed while saving data to data set ParquetLocalDataSet(engine=auto, filepath=data/02_intermediate/data.parquet, save_args={}). 'DataFrame' object has no attribute 'to_parquet'

Что я должен исправить, чтобы преобразовать мой набор данных?

2

python kedro

Источник

user1110044 24 фев '20 в 22:29

1 ответ

Решение

Другие вопросы по тегам python kedro

user12955922 24 фев '20 в 22:59 2020-02-24 22:59 · Accepted Answer · 2020-02-24 22:59

Вы можете попробовать следующее. Это работало для меня в прошлом.

parquet_data:
    type: kedro.contrib.io.pyspark.SparkDataSet
    file_format: 'parquet'
    filepath: data/02_intermediate/data.parquet
    save_args:

3

Источник

user12955922 24 фев '20 в 22:59