Инициализированный метод GenericUDF вызывается несколько раз
У меня есть HiveUDF, который расширяет GenericUDF, когда я вызываю udf через spark.sql, я получаю правильные результаты, но инициализированный метод вызывается несколько раз.
Не можете понять, почему это происходит?
1 ответ
Похоже, что это искра ошибка здесь https://issues.apache.org/jira/browse/SPARK-17728.
Ты можешь попробовать cache()
данные перед применением UDF, но иногда этот обходной путь стоит производительности.