Использование seaborn в Apache Spark

Используя pandas и seaborn на кадре данных csv с 50 миллионами случаев, чтобы сделать некоторую матрицу разброса, я заметил, что время обработки действительно велико, для удобства я сделал df.sample()на части данных, и это сократило время обработки. Учитывая потенциалapache spark Я хотел спросить, можно ли применить его скорость для обработки всех 50 миллионов создаваемых данных: scatter matrix, scatter plot, pairgrid и т. д. в seaborn. Взяв информацию по этой теме, я увидел, что это сделать довольно сложно.

0 ответов

Другие вопросы по тегам