Работает ли обучение Vertex AI для распределенного обучения по нескольким узлам с HuggingFace Trainer + Deepspeed?

Мне интересно, можно ли использовать Vertex AI Training для распределенного обучения с использованием Huggingface Trainer и deepspeed? Все, что я видел, это примеры с собственной стратегией распределения факелов.

Было бы очень полезно, если бы кто-нибудь мог мне сказать

  1. Если поддерживается deepspeed
  2. Как интегрировать deepspeed при многоузловом обучении в Vertex AI

1 ответ

Вы можете создать собственный обучающий образ, содержащий обучающий код DeepSpeed, отправить образ Docker в реестр артефактов, а затем выполнить тонкую настройку Vertex AI.

Этот пост о точной настройке с помощью DeepSpeed ​​и Vertex AI объясняет это довольно хорошо.

Другие вопросы по тегам