Блоки данных Azure: ошибка pandas.read_parquet
1 ответ
Панды не знают о файловой системе ABFSS. Чтобы прочитать этот файл, у вас есть несколько вариантов:
- Смонтируйте , и прочитать файл , используя путь
/mnt/...
- Скопируйте файл из ADLS в локальную файловую систему с помощью команды dbutils.fs.cp, а затем прочтите из локальной файловой системы:
dbutils.fs.cp("abfss://....", "file:///your-location")
(см. хранение ADLS в Databricks рабочее пространстводокументацию ).
Вы также можете попробовать открыть файл с класса помощьюAzureDLFileSystem из пакета azure-datalake-store и передать дескриптор read_parquet - он работает для CSV, но я не уверен, что он будет работать с Parquet.
Также вы можете попробовать использовать пакет pyarrowfs-adlgen2 - он должен позволять читать файл, не загружая его локально.