Как создать кортежи (оригинальный ярлык, предсказанный ярлык) в Spark с помощью MLlib?

Question

Как создать кортежи (оригинальный ярлык, предсказанный ярлык) в Spark с помощью MLlib?

Я пытаюсь делать прогнозы с моделью, которую я получил от MLlib на Spark. Цель состоит в том, чтобы сгенерировать кортежи (orinalLabelInData, ForecastLabel). Затем эти кортежи можно использовать для оценки модели. Каков наилучший способ достичь этого? Благодарю.

Предполагая, что parsedTrainData является СДР LabeledPoint

from pyspark.mllib.regression import LabeledPoint
from pyspark.mllib.tree import DecisionTree, DecisionTreeModel
from pyspark.mllib.util import MLUtils

parsedTrainData = sc.parallelize([LabeledPoint(1.0, [11.0,-12.0,23.0]), 
                                  LabeledPoint(3.0, [-1.0,12.0,-23.0])])

model = DecisionTree.trainClassifier(parsedTrainData, numClasses=7,
categoricalFeaturesInfo={}, impurity='gini', maxDepth=8, maxBins=32)

model.predict(parsedTrainData.map(lambda x: x.features)).take(1)

Это возвращает прогнозы, но я не уверен, как сопоставить каждый прогноз с исходными метками в данных.

Я старался

parsedTrainData.map(lambda x: (x.label, dtModel.predict(x.features))).take(1)

однако, похоже, что мой способ отправки модели работнику здесь недопустим

/spark140/python/pyspark/context.pyc in __getnewargs__(self)
    250         # This method is called when attempting to pickle SparkContext, which is always an error:
    251         raise Exception(
--> 252             "It appears that you are attempting to reference SparkContext from a broadcast "
    253             "variable, action, or transforamtion. SparkContext can only be used on the driver, "
    254             "not in code that it run on workers. For more information, see SPARK-5063."

Exception: It appears that you are attempting to reference SparkContext from a broadcast variable, action, or transforamtion. SparkContext can only be used on the driver, not in code that it run on workers. For more information, see SPARK-5063.

2

python apache-spark apache-spark-mllib

Источник

user3089523 28 июл '15 в 15:23

1 ответ

Решение

Другие вопросы по тегам python apache-spark apache-spark-mllib

user1560062 28 июл '15 в 17:26 2015-07-28 17:26 · Accepted Answer · 2015-07-28 17:26

Ну, в соответствии с официальной документацией вы можете просто застегнуть прогнозы и метки, как это:

predictions = model.predict(parsedTrainData.map(lambda x: x.features))
labelsAndPredictions = parsedTrainData.map(lambda x: x.label).zip(predictions)

3

Источник

user1560062 28 июл '15 в 17:26