Точная настройка Starcoder — как выбрать графический процессор и как оценить время, необходимое для точной настройки
Я хотел бы точно настроить Starcoder (https://huggingface.co/bigcode/starcoder) для моего набора данных и экземпляра виртуальной машины GCP.
В документации сказано, что для обучения модели использовалось 512 графических процессоров Tesla A100 и это заняло 24 дня.
Я также видел файлы модели (.bin) в разделе файлов HuggingFace (https://huggingface.co/bigcode/starcoder/tree/main) .
Общий размер модели ~64ГБ.
На основании всей этой информации,
- Как мне решить, какой графический процессор лучше всего подходит для точной настройки моего набора данных?
- Как оценить время, которое потребуется на тонкую настройку? (например, на основе предположений о таких параметрах, как эпоха =1)
- Существуют ли какие-либо другие факторы, которые учитываются при выборе оборудования/расчета времени?