Как можно объединить все разделы Dask Data-frame
Я хочу использовать Dask Dataframe, и я использовал
Sales = dd.read_csv('Sales.txt',blocksize=500000,
storage_options=dict(anon=True))
Product = dd.read_csv('Product.txt')
для моих двух файлов, и я объединил две таблицы
df = sales_location = Sales.merge(Product, how='left', on ='Key')
Продажи файлов 28M строк, если я не использую blocksize
опция не делает раздел, и процесс идет так долго (даже df.head()), но если я использую blocksize
(более 1 раздела), затем процесс сортировки, но есть не все файлы, я могу видеть только часть данных.
Поэтому мой вопрос: как сделать процесс быстрее и со всеми файлами. Я хочу создать большой основной файл с фреймом данных Dask и создать небольшие фреймы данных для анализа.