Точная настройка Starcoder — как выбрать графический процессор и как оценить время, необходимое для точной настройки

Я хотел бы точно настроить Starcoder (https://huggingface.co/bigcode/starcoder) для моего набора данных и экземпляра виртуальной машины GCP.

В документации сказано, что для обучения модели использовалось 512 графических процессоров Tesla A100 и это заняло 24 дня.

Я также видел файлы модели (.bin) в разделе файлов HuggingFace (https://huggingface.co/bigcode/starcoder/tree/main) .

Общий размер модели ~64ГБ.

На основании всей этой информации,

  1. Как мне решить, какой графический процессор лучше всего подходит для точной настройки моего набора данных?
  2. Как оценить время, которое потребуется на тонкую настройку? (например, на основе предположений о таких параметрах, как эпоха =1)
  3. Существуют ли какие-либо другие факторы, которые учитываются при выборе оборудования/расчета времени?

0 ответов

Другие вопросы по тегам