MLlib: Как работает RFormula.fit()?
Одна возможность создать модель с помощью Spark's MLlib
это RFormula
модуль из pyspark.ml.feature
как объяснено в документах. Тем не менее, я не могу найти никакого объяснения, как fit
на самом деле реализуется в этом случае. Использует ли он функцию возведения в квадрат или что-то еще? Где я могу найти такую информацию? Источник действительно трудно понять...
1 ответ
Решение
Как уже упоминалось в комментариях Anoop Toffy, вы можете найти хороший маленький учебник здесь. Чтобы процитировать учебник:
fit()
step определяет отображение значений категориальных признаков на векторные индексы в выходных данных, так что подобранная формула RFormula может использоваться в разных наборах данных.>>> formula = RFormula(formula="ArrDelay ~ DepDelay + Distance + aircraft_type") >>> formula.fit(training).transform(training).show() +--------------+---------+---------+---------+--------------------+------+ | aircraft_type| Distance| DepDelay| ArrDelay| features| label| +--------------+---------+---------+---------+--------------------+------+ | Balloon| 23| 18| 20| [0.0,0.0,23.0,18.0]| 20.0| | Multi-Engine| 815| 2| -2| [0.0,1.0,815.0,2.0]| -2.0| | Single-Engine| 174| 0| 1| [1.0,0.0,174.0,0.0]| 1.0| +--------------+---------+---------+---------+--------------------+------+