Petastorm с ошибкой подключения Databricks

Использование Azure Databricks. У меня есть petastorm == 0.11.2 и databricks-connect == 9.1.0

Мой сеанс подключения к базе данных, похоже, работает. Я могу читать данные в моем удаленном рабочем пространстве. Но когда я использую petastorm для создания объекта искрового преобразователя, он говорит, что не может вывести схему, хотя если взять объект, который я ему передаю, и проверить его атрибут .schema, он отлично показывает мне схему.

Тот же самый код работает в рабочей области блоков данных в записных книжках. Но не работает, когда я нахожусь на отдельной виртуальной машине и использую DBConnect для чтения данных.

Я думаю, проблема заключается в настройке этой конфигурации: SparkDatasetConverter.PARENT_CACHE_DIR_URL_CONF. Когда в рабочей области локальных блоков данных используется значение file:///tmp/petastorm/cache/, работает нормально. При использовании databricks-connect он предположительно создает контекст искры, связанный с кластером, а в остальном для путей чтения и записи ведет себя нормально.

Любые идеи?

0 ответов

Другие вопросы по тегам