Как можно объединить все разделы Dask Data-frame

Я хочу использовать Dask Dataframe, и я использовал

    Sales = dd.read_csv('Sales.txt',blocksize=500000,
                     storage_options=dict(anon=True))

   Product = dd.read_csv('Product.txt')

для моих двух файлов, и я объединил две таблицы

df = sales_location = Sales.merge(Product, how='left', on ='Key')

Продажи файлов 28M строк, если я не использую blocksize опция не делает раздел, и процесс идет так долго (даже df.head()), но если я использую blocksize (более 1 раздела), затем процесс сортировки, но есть не все файлы, я могу видеть только часть данных.

Поэтому мой вопрос: как сделать процесс быстрее и со всеми файлами. Я хочу создать большой основной файл с фреймом данных Dask и создать небольшие фреймы данных для анализа.

0 ответов

Другие вопросы по тегам