Как проверить, сколько ядер использует PySpark?

Я установил VirtualBox(Ubuntu 18.04.2 64-bit) и PySpark 2.4.0. Когда я создавал VB, я ставил 4 процессора на максимум.

Как я должен проверить, сколько ядер использует Spark?

1 ответ

Решение

Это зависит от главного URL-адреса, который описывает, какую среду выполнения (диспетчер кластеров) использовать.

Поскольку это такая низкоуровневая инфраструктурная вещь, вы можете найти ответ, запросив SparkContext пример.

Например, если это local[*] это будет означать, что вы хотите использовать столько процессоров (звездная часть), сколько доступно на локальной JVM.

$ ./bin/pyspark
Python 2.7.15 (default, Feb 19 2019, 09:17:37)
[GCC 4.2.1 Compatible Apple LLVM 10.0.0 (clang-1000.11.45.5)] on darwin
...
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.4.0
      /_/

Using Python version 2.7.15 (default, Feb 19 2019 09:17:37)
SparkSession available as 'spark'.
>>> print sc.master
local[*]
>>> print sc.defaultParallelism
8
Другие вопросы по тегам