databricks-connect, py4j.protocol.Py4JJavaError: произошла ошибка при вызове o342.cache
Подключение к блокам данных работает нормально, работа с DataFrames проходит гладко (такие операции, как объединение, фильтрация и т. Д.). Проблема появляется при звонкеcache
на фреймворке данных.
py4j.protocol.Py4JJavaError: An error occurred while calling o342.cache.
: java.io.InvalidClassException: failed to read class descriptor
...
Caused by: java.lang.ClassNotFoundException: org.apache.spark.rdd.RDD$client53442a94a3$$anonfun$mapPartitions$1$$anonfun$apply$23
at java.lang.ClassLoader.findClass(ClassLoader.java:523)
at org.apache.spark.util.ParentClassLoader.findClass(ParentClassLoader.java:35)
at java.lang.ClassLoader.loadClass(ClassLoader.java:418)
at org.apache.spark.util.ParentClassLoader.loadClass(ParentClassLoader.java:40)
at org.apache.spark.util.ChildFirstURLClassLoader.loadClass(ChildFirstURLClassLoader.java:48)
at java.lang.ClassLoader.loadClass(ClassLoader.java:351)
at java.lang.Class.forName0(Native Method)
at java.lang.Class.forName(Class.java:348)
at org.apache.spark.util.Utils$.classForName(Utils.scala:257)
at org.apache.spark.sql.util.ProtoSerializer.org$apache$spark$sql$util$ProtoSerializer$$readResolveClassDescriptor(ProtoSerializer.scala:4316)
at org.apache.spark.sql.util.ProtoSerializer$$anon$4.readClassDescriptor(ProtoSerializer.scala:4304)
at java.io.ObjectInputStream.readNonProxyDesc(ObjectInputStream.java:1857)
... 71 more
Я работаю с java8 по мере необходимости, очистка pycache не помогает. Тот же код, который был передан в качестве задания для модулей данных, работает нормально. Это похоже на локальную проблему на уровне моста python-jvm, но требуется версия java (8) и python (3.7). При переключении на java13 появляется такое же сообщение.
Версии databricks-connect==6.2.0
, openjdk version "1.8.0_242"
, Python 3.7.6
РЕДАКТИРОВАТЬ: поведение зависит от того, как создается DF, если источник DF является внешним, тогда он работает нормально, если DF создается локально, появляется такая ошибка.
# works fine
df = spark.read.csv("dbfs:/some.csv")
df.cache()
# ERROR in 'cache' line
df = spark.createDataFrame([("a",), ("b",)])
df.cache()
1 ответ
Это известная проблема, и я думаю, что недавний патч исправил ее. Это было замечено для Azure, я не уверен, используете ли вы Azure или AWS, но это решено. Проверьте проблему - https://github.com/MicrosoftDocs/azure-docs/issues/52431