Можно ли извлечь значимые значения для коэффициентов логистической регрессии в pyspark?

Есть ли способ получить уровень значимости каждого коэффициента, который мы получаем после подбора модели логистической регрессии на данных обучения?

Я пытался найти способ и не мог понять сам.

Я думаю, что могу получить уровень значимости каждой функции, если я выполню тест chi sq, но, во-первых, я не уверен, смогу ли я выполнить тест для всех функций вместе, и, во-вторых, у меня есть числовое значение данных, так что если оно даст мне правильный результат или нет это также остается вопросом.

Прямо сейчас я выполняю часть моделирования, используя statsmodel и scikit learn, но, конечно, хочу знать, как я могу получить эти результаты от pySparl ML или самой MLLib

Если кто-то может пролить свет, это будет полезно

1 ответ

Решение

Я использую только mllib, я думаю, что когда вы обучаете модель, вы можете использовать метод toPMML для экспорта вашей модели в формат PMML (файл xml), а затем вы можете проанализировать файл xml для получения весов функций, вот пример

https://spark.apache.org/docs/2.0.2/mllib-pmml-model-export.html

Надеюсь, что это поможет

Другие вопросы по тегам