MLlib: Как работает RFormula.fit()?

Одна возможность создать модель с помощью Spark's MLlib это RFormula модуль из pyspark.ml.feature как объяснено в документах. Тем не менее, я не могу найти никакого объяснения, как fit на самом деле реализуется в этом случае. Использует ли он функцию возведения в квадрат или что-то еще? Где я могу найти такую ​​информацию? Источник действительно трудно понять...

1 ответ

Решение

Как уже упоминалось в комментариях Anoop Toffy, вы можете найти хороший маленький учебник здесь. Чтобы процитировать учебник:

fit() step определяет отображение значений категориальных признаков на векторные индексы в выходных данных, так что подобранная формула RFormula может использоваться в разных наборах данных.

>>> formula = RFormula(formula="ArrDelay ~ DepDelay + Distance + aircraft_type")
>>> formula.fit(training).transform(training).show()
+--------------+---------+---------+---------+--------------------+------+
| aircraft_type| Distance| DepDelay| ArrDelay|            features| label|
+--------------+---------+---------+---------+--------------------+------+
|       Balloon|       23|       18|       20| [0.0,0.0,23.0,18.0]|  20.0|
|  Multi-Engine|      815|        2|       -2| [0.0,1.0,815.0,2.0]|  -2.0|
| Single-Engine|      174|        0|        1| [1.0,0.0,174.0,0.0]|   1.0|
+--------------+---------+---------+---------+--------------------+------+
Другие вопросы по тегам