ZeRO2 + конвейер: почему конвейер не может использовать ZeRo2?
В документе ZeRO есть примечание:ноль примечаний к документам.
Когда я обучал большую модель с нулевой скоростью, появилось предупреждение о том, что я не могу одновременно использовать обучение конвейера и ноль2(градиенты разделения)? Но почему? По моему мнению, я могу просто вычислить результат на каждом этапе конвейера, а затем просто собрать их как окончательный результат.