Как визуализировать группировку переменных или выполнить интерактивную группировку в мире PySpark?

Мне было интересно, есть ли способ, как выполнить группировку интерактивных переменных (аналогично той, которая включена в программном обеспечении SAS Miner) в мире PySpark/Python. Группировка переменных является неотъемлемой частью разработки модели, поэтому я полагаю, что уже должен быть какой-то инструмент / библиотека, которая могла бы это поддерживать. У кого-нибудь есть опыт с этим? Спасибо

0 ответов

В настоящее время такой библиотеки для Python не существует.

Интерактивная группировка переменных - это многоэтапный процесс (предлагаемый в виде узла IGN в SAS Enterprise Miner), который является частью решения SAS EM Credit Scoring, а не базовым SAS. Хотя в мире Python есть инструменты для некоторых шагов IGN, таких как бининг, WoE, Gini, деревья решений и т. Д. Scikit-learn - хорошая отправная точка для этого.

Есть много проектов, связанных с Scikit learn, включая тематические. Проект кредитного скоринга является потенциальным кандидатом в этом списке.

Другие вопросы по тегам