Файл Azure ML Workbench из BLOB-объекта
При попытке сослаться / загрузить файл dsource или dprep, созданный из файла источника данных из хранилища больших двоичных объектов, я получаю сообщение об ошибке "Нет файлов для заданных путей".
Протестировано с файлами.py и.ipynb. Вот код:
# Use the Azure Machine Learning data source package
from azureml.dataprep import datasource
df = datasource.load_datasource('POS.dsource') #Error generated here
# Remove this line and add code that uses the DataFrame
df.head(10)
Пожалуйста, дайте мне знать, какая другая информация будет полезна. Спасибо!
2 ответа
Столкнулся с той же проблемой, и потребовалось некоторое исследование, чтобы выяснить!
В настоящее время файлы источников данных из хранилища BLOB- объектов поддерживаются только для двух типов кластеров: Azure HDInsight PySpark и Docker (Linux VM) PySpark.
Чтобы это работало, необходимо следовать инструкциям в разделе Настройка службы экспериментов по машинному обучению Azure.
Я тоже побежал az ml experiment prepare -c <compute_name>
установить все зависимости в кластере перед отправкой первой команды, так как это развертывание занимает довольно много времени (по крайней мере, 10 минут для моего кластера D12 v2.)
Получил .py
файлы для запуска с вычислительным кластером HDInsight PySpark (для данных, хранящихся в BLOB-объектах Azure). Но .ipynb
файлы все еще не работают на моем локальном сервере Jupyter - ячейки никогда не заканчиваются.
Я из команды машинного обучения Azure - извините, у вас проблемы с ноутбуком Jupyter. Вы пытались запустить ноутбук из CLI? Если вы запускаете из CLI, вы должны увидеть stderr/stdout. IFrame в WB глотает фактические сообщения об ошибках. Это может помочь вам устранить неполадки.