Как проверить, сколько ядер использует PySpark?
Я установил VirtualBox(Ubuntu 18.04.2 64-bit) и PySpark 2.4.0. Когда я создавал VB, я ставил 4 процессора на максимум.
Как я должен проверить, сколько ядер использует Spark?
1 ответ
Решение
Это зависит от главного URL-адреса, который описывает, какую среду выполнения (диспетчер кластеров) использовать.
Поскольку это такая низкоуровневая инфраструктурная вещь, вы можете найти ответ, запросив SparkContext
пример.
Например, если это local[*]
это будет означать, что вы хотите использовать столько процессоров (звездная часть), сколько доступно на локальной JVM.
$ ./bin/pyspark
Python 2.7.15 (default, Feb 19 2019, 09:17:37)
[GCC 4.2.1 Compatible Apple LLVM 10.0.0 (clang-1000.11.45.5)] on darwin
...
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 2.4.0
/_/
Using Python version 2.7.15 (default, Feb 19 2019 09:17:37)
SparkSession available as 'spark'.
>>> print sc.master
local[*]
>>> print sc.defaultParallelism
8