Работает ли обучение Vertex AI для распределенного обучения по нескольким узлам с HuggingFace Trainer + Deepspeed?
Мне интересно, можно ли использовать Vertex AI Training для распределенного обучения с использованием Huggingface Trainer и deepspeed? Все, что я видел, это примеры с собственной стратегией распределения факелов.
Было бы очень полезно, если бы кто-нибудь мог мне сказать
- Если поддерживается deepspeed
- Как интегрировать deepspeed при многоузловом обучении в Vertex AI
1 ответ
Вы можете создать собственный обучающий образ, содержащий обучающий код DeepSpeed, отправить образ Docker в реестр артефактов, а затем выполнить тонкую настройку Vertex AI.
Этот пост о точной настройке с помощью DeepSpeed и Vertex AI объясняет это довольно хорошо.