databricks-connect, py4j.protocol.Py4JJavaError: произошла ошибка при вызове o342.cache

Question

databricks-connect, py4j.protocol.Py4JJavaError: произошла ошибка при вызове o342.cache

Подключение к блокам данных работает нормально, работа с DataFrames проходит гладко (такие операции, как объединение, фильтрация и т. Д.). Проблема появляется при звонкеcache на фреймворке данных.

py4j.protocol.Py4JJavaError: An error occurred while calling o342.cache.
: java.io.InvalidClassException: failed to read class descriptor
...
Caused by: java.lang.ClassNotFoundException: org.apache.spark.rdd.RDD$client53442a94a3$$anonfun$mapPartitions$1$$anonfun$apply$23
    at java.lang.ClassLoader.findClass(ClassLoader.java:523)
    at org.apache.spark.util.ParentClassLoader.findClass(ParentClassLoader.java:35)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:418)
    at org.apache.spark.util.ParentClassLoader.loadClass(ParentClassLoader.java:40)
    at org.apache.spark.util.ChildFirstURLClassLoader.loadClass(ChildFirstURLClassLoader.java:48)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:351)
    at java.lang.Class.forName0(Native Method)
    at java.lang.Class.forName(Class.java:348)
    at org.apache.spark.util.Utils$.classForName(Utils.scala:257)
    at org.apache.spark.sql.util.ProtoSerializer.org$apache$spark$sql$util$ProtoSerializer$$readResolveClassDescriptor(ProtoSerializer.scala:4316)
    at org.apache.spark.sql.util.ProtoSerializer$$anon$4.readClassDescriptor(ProtoSerializer.scala:4304)
    at java.io.ObjectInputStream.readNonProxyDesc(ObjectInputStream.java:1857)
    ... 71 more

Я работаю с java8 по мере необходимости, очистка pycache не помогает. Тот же код, который был передан в качестве задания для модулей данных, работает нормально. Это похоже на локальную проблему на уровне моста python-jvm, но требуется версия java (8) и python (3.7). При переключении на java13 появляется такое же сообщение.

Версии databricks-connect==6.2.0, openjdk version "1.8.0_242", Python 3.7.6

РЕДАКТИРОВАТЬ: поведение зависит от того, как создается DF, если источник DF является внешним, тогда он работает нормально, если DF создается локально, появляется такая ошибка.

# works fine
df = spark.read.csv("dbfs:/some.csv")
df.cache()

# ERROR in 'cache' line
df = spark.createDataFrame([("a",), ("b",)])
df.cache()

1

pyspark databricks-connect

Источник

user4643666 03 фев '20 в 20:16

1 ответ

Другие вопросы по тегам pyspark databricks-connect

user6660421 16 авг '20 в 13:30 2020-08-16 13:30 · Answer 1 · 2020-08-16 13:30

Это известная проблема, и я думаю, что недавний патч исправил ее. Это было замечено для Azure, я не уверен, используете ли вы Azure или AWS, но это решено. Проверьте проблему - https://github.com/MicrosoftDocs/azure-docs/issues/52431

1

Источник

user6660421 16 авг '20 в 13:30