Почему XGBoost со SparkML в Linux намного медленнее, чем в Windows
Я установил рабочую станцию Linux, на которой я планирую использовать Spark ML со Scala и XGBoost (0.90). До сих пор я работал с подобной конфигурацией в Windows. Те же версии для Spark, Java и т. Д., Но для XGBoost я использовал вилку criteo версии 0.81.
Обе конфигурации работают. Проблема, с которой я сталкиваюсь, заключается в том, что для того же набора данных XGBoost в Windows потребуется несколько минут (2-3 минуты) для расчета набора поездов, но в Linux это займет 20 минут.
Странно то, что когда я запускаю XGBoost в Windows, загрузка процессора составляет 100%, тогда как на рабочей станции Linux она составляет всего 5-10 %.
Я бы остановился на рабочей станции с Windows, но она время от времени дает сбой, поэтому я решил, что с Linux будет "безопасно".