Можно ли извлечь значимые значения для коэффициентов логистической регрессии в pyspark?
Есть ли способ получить уровень значимости каждого коэффициента, который мы получаем после подбора модели логистической регрессии на данных обучения?
Я пытался найти способ и не мог понять сам.
Я думаю, что могу получить уровень значимости каждой функции, если я выполню тест chi sq, но, во-первых, я не уверен, смогу ли я выполнить тест для всех функций вместе, и, во-вторых, у меня есть числовое значение данных, так что если оно даст мне правильный результат или нет это также остается вопросом.
Прямо сейчас я выполняю часть моделирования, используя statsmodel и scikit learn, но, конечно, хочу знать, как я могу получить эти результаты от pySparl ML или самой MLLib
Если кто-то может пролить свет, это будет полезно
1 ответ
Я использую только mllib, я думаю, что когда вы обучаете модель, вы можете использовать метод toPMML для экспорта вашей модели в формат PMML (файл xml), а затем вы можете проанализировать файл xml для получения весов функций, вот пример
https://spark.apache.org/docs/2.0.2/mllib-pmml-model-export.html
Надеюсь, что это поможет