Как преодолеть исключение TrainingException при обучении большой модели с помощью службы машинного обучения Azure?
Я обучаю модель большого размера и пытаюсь использовать для этой цели службу машинного обучения Azure в ноутбуках Azure.
Я таким образом создаю Estimator
тренироваться локально:
from azureml.train.estimator import Estimator
estimator = Estimator(source_directory='./source_dir',
compute_target='local',
entry_script='train.py')
(мой train.py
должен загружаться и тренироваться, начиная с большого файла вектора слов).
Когда работает с
run = experiment.submit(config=estimator)
я получил
TrainingException:
================================================== ==================
При попытке сделать снимок /data/home/username/notebooks/source_dir Ваш общий размер снимка превышает ограничение в 300,0 МБ. Пожалуйста, смотрите http://aka.ms/aml-largefiles о том, как работать с большими файлами.
================================================== ==================
Ссылка, указанная в ошибке, вероятно, не работает. Содержание в моем ./source_dir
действительно превышает 300 МБ.
Как я могу решить это?
2 ответа
Вы можете разместить учебные файлы за пределами source_dir
чтобы они не загружались при отправке эксперимента, а затем загружались отдельно в хранилище данных (которое в основном использует хранилище Azure, связанное с вашей рабочей областью). Все, что вам нужно сделать, это ссылаться на учебные файлы из train.py
,
См. Учебное пособие по модели поездов, в котором приведен пример загрузки данных в хранилище данных и последующего доступа к ним из учебного файла.
После того, как я прочитал проблему GitHub Encounter | общий размер снимка 300 МБ при запуске ведения журнала и официальный документ Управление и запрос квот для ресурсов Azure для службы машинного обучения Azure, я думаю, что это неизвестная проблема, для устранения которой Azure требуется некоторое время.
Тем временем я рекомендовал вам попробовать перенести текущую работу в другую службу Azure Databricks, загрузить свой набор данных и коды, а затем запустить его в записной книжке Azure Databricks, которая размещена в кластере HDInsight Spark, не беспокоясь о памяти или хранилище. пределы. Вы можете обратиться к этим образцам для Azure ML в Azure Databricks.