Кэширование фрейма данных в joblib

Joblib имеет функциональность для совместного использования массивов Numpy между процессами, автоматически сопоставляя массив. Однако это использует специальные возможности Numpy. Pandas действительно использует Numpy под капотом, но если у всех ваших столбцов одинаковый тип данных, вы не сможете сериализовать DataFrame в один массив Numpy.

Каков был бы "правильный" способ кэширования DataFrame для повторного использования в Joblib?

Мое лучшее предположение - запоминать каждый столбец отдельно, а затем восстанавливать фрейм данных внутри цикла (и молиться, чтобы Панды не копировали данные). Но это кажется довольно интенсивным процессом.

Я знаю об автономном классе памяти, но не ясно, может ли это помочь.

0 ответов

Другие вопросы по тегам