Инициализированный метод GenericUDF вызывается несколько раз

У меня есть HiveUDF, который расширяет GenericUDF, когда я вызываю udf через spark.sql, я получаю правильные результаты, но инициализированный метод вызывается несколько раз.

Не можете понять, почему это происходит?

1 ответ

Похоже, что это искра ошибка здесь https://issues.apache.org/jira/browse/SPARK-17728.

Ты можешь попробовать cache() данные перед применением UDF, но иногда этот обходной путь стоит производительности.

Другие вопросы по тегам