Как преодолеть исключение TrainingException при обучении большой модели с помощью службы машинного обучения Azure?

Я обучаю модель большого размера и пытаюсь использовать для этой цели службу машинного обучения Azure в ноутбуках Azure.

Я таким образом создаю Estimator тренироваться локально:

from azureml.train.estimator import Estimator

estimator = Estimator(source_directory='./source_dir',
                      compute_target='local',
                      entry_script='train.py')

(мой train.py должен загружаться и тренироваться, начиная с большого файла вектора слов).

Когда работает с

run = experiment.submit(config=estimator)

я получил

TrainingException:

================================================== ==================

При попытке сделать снимок /data/home/username/notebooks/source_dir Ваш общий размер снимка превышает ограничение в 300,0 МБ. Пожалуйста, смотрите http://aka.ms/aml-largefiles о том, как работать с большими файлами.

================================================== ==================

Ссылка, указанная в ошибке, вероятно, не работает. Содержание в моем ./source_dir действительно превышает 300 МБ.
Как я могу решить это?

2 ответа

Решение

Вы можете разместить учебные файлы за пределами source_dir чтобы они не загружались при отправке эксперимента, а затем загружались отдельно в хранилище данных (которое в основном использует хранилище Azure, связанное с вашей рабочей областью). Все, что вам нужно сделать, это ссылаться на учебные файлы из train.py,

См. Учебное пособие по модели поездов, в котором приведен пример загрузки данных в хранилище данных и последующего доступа к ним из учебного файла.

После того, как я прочитал проблему GitHub Encounter | общий размер снимка 300 МБ при запуске ведения журнала и официальный документ Управление и запрос квот для ресурсов Azure для службы машинного обучения Azure, я думаю, что это неизвестная проблема, для устранения которой Azure требуется некоторое время.

Тем временем я рекомендовал вам попробовать перенести текущую работу в другую службу Azure Databricks, загрузить свой набор данных и коды, а затем запустить его в записной книжке Azure Databricks, которая размещена в кластере HDInsight Spark, не беспокоясь о памяти или хранилище. пределы. Вы можете обратиться к этим образцам для Azure ML в Azure Databricks.

Другие вопросы по тегам