Объект «MPTConfig» не имеет атрибута «hidden_size».

Я пытаюсь точно настроить модель MPT с помощью DeepSpeed ​​на Databricks, но сталкиваюсь с этой ошибкой AttributeError. Вот MRE моего кода ниже:

      import transformers
from transformers import AutoConfig

model_path = 'mosaicml/mpt-7b'
config = AutoConfig.from_pretrained(model_path, trust_remote_code=True)
model_hidden_size = config.hidden_size

AttributeError: 'MPTConfig' object has no attribute 'hidden_size'

мне нужно этоmodel_hidden_sizeпеременная, чтобы я мог использовать ее в этом коде:

      deepspeed_config["hidden_size"] = model_hidden_size
deepspeed_config["zero_optimization"]["reduce_bucket_size"] = model_hidden_size*model_hidden_size
deepspeed_config["zero_optimization"]["stage3_prefetch_bucket_size"] = 0.9 * model_hidden_size * model_hidden_size
deepspeed_config["zero_optimization"]["stage3_param_persistence_threshold"] = 10 * model_hidden_size

Нужно ли мне открывать запрос на добавление функции на GitHub MPT? Стоит ли мне попробовать использовать литейное производство моделей вместо Huggingface Transformers? Или этот код deepspeed_config не нужен для фактического процесса точной настройки? Я использую нулевую стадию 3.

0 ответов

Другие вопросы по тегам