Использование seaborn в Apache Spark
Используя pandas и seaborn на кадре данных csv с 50 миллионами случаев, чтобы сделать некоторую матрицу разброса, я заметил, что время обработки действительно велико, для удобства я сделал df.sample()
на части данных, и это сократило время обработки. Учитывая потенциалapache spark
Я хотел спросить, можно ли применить его скорость для обработки всех 50 миллионов создаваемых данных: scatter matrix
, scatter plot
, pairgrid
и т. д. в seaborn
. Взяв информацию по этой теме, я увидел, что это сделать довольно сложно.