Описание тега deepspeed

Вопросы с тегом

0 ответов

Почему API DeepSpeed `estimate_zero2_model_states_mem_needs_…` сообщает об одной и той же памяти для каждого процессора с разными значениями параметра `offload_optimizer`?

Пример, приведенный в документации «Требования к памяти — DeepSpeed 0.10.1», выглядит следующим образом: python -c 'from deepspeed.runtime.zero.stage_1_and_2 import estimate_zero2_model_states_mem_needs_all_cold; \ estimate_zero2_model_states_mem_…

gpu cpu deepspeed

29 июл '23 в 14:10

0 ответов

как установить максимальное использование памяти графического процессора для каждого устройства при использовании deepspeed для распределенного обучения?

Я новичок в DeepSpeed и имею некоторый опыт глубокого обучения. Я хочу знать, как установить максимальный объем памяти графического процессора для каждого устройства при использовании DeepSpeed? Я ничего не сделал. у меня нет мыслей Мое устройство…

out-of-memory distributed-training deepspeed

24 июл '23 в 07:39

1 ответ

Работает ли обучение Vertex AI для распределенного обучения по нескольким узлам с HuggingFace Trainer + Deepspeed?

Мне интересно, можно ли использовать Vertex AI Training для распределенного обучения с использованием Huggingface Trainer и deepspeed? Все, что я видел, это примеры с собственной стратегией распределения факелов. Было бы очень полезно, если бы кто-н…

huggingface-transformers google-cloud-vertex-ai deepspeed

02 авг '23 в 13:28

0 ответов

Загрузка модели HF в несколько графических процессоров и выполнение выводов на этих графических процессорах (без обучения или точной настройки)

Есть ли способ загрузить модель Hugging Face в несколько графических процессоров и использовать эти графические процессоры для вывода? Например, есть эта модель, которую можно загрузить на один графический процессор (по умолчанию cuda:0) и запустить…

huggingface multi-gpu accelerate inference-engine deepspeed

13 авг '23 в 18:33

1 ответ

Как я могу использовать снижающуюся скорость обучения в DeepSpeed?

Я тренирую Долли 2.0. Когда я это сделаю, я получаю следующий вывод из терминала: Если я использую DeepSpeed для выполнения этого обучения, я отмечаю, что скорость обучения не улучшилась: Почему скорость обучения не улучшилась? Это конфигурация De…

python deepspeed databricks-dolly

18 июл '23 в 09:12

0 ответов

Время обучения для Dolly-v2-12b на пользовательском наборе данных с графическим процессором A10

Привет, я пытаюсь обучить dolly-v2-12b или любую модель тележки, используя собственный набор данных с использованием графического процессора A10. Я пишу код в pycharm, ОС Windows. Задание похоже на вопросы и ответы. Я пытаюсь использовать это как по…

python databricks custom-training deepspeed databricks-dolly

28 июл '23 в 04:51

0 ответов

Как добавить контрольную точку активации Deepspeed в LLM для тонкой настройки в PyTorch Lightning?

Я пытаюсь включить контрольную точку активации для модели T5-3b, чтобы значительно освободить память графического процессора. Однако не совсем понятно, как реализовать LLM. Судя по документации PTL , это примерно так: from lightning.pytorch import T…

python pytorch pytorch-lightning fine-tuning deepspeed

06 июл '23 в 18:32

0 ответов

Вы используете ZeRO-Offload с оптимизатором, предоставляемым клиентом (<класс 'torch.optim.adamw.AdamW'>), который в большинстве случаев приводит к низкой производительности.

Я использую стратегию Deepspeed Pytorch Lightning, пытаюсь обучить модель и получаю эту ошибку. Каковы различные способы исправить это с плюсами и минусами? deepspeed.runtime.zero.utils.ZeRORuntimeException: You are using ZeRO-Offload with a client …

pytorch pytorch-lightning deepspeed

15 авг '23 в 12:59

0 ответов

DeepSpeed: ни один оператор не соответствует ошибке операндов

Когда я пытаюсь использовать пример DeepSpeed для точной настройки модели OPT 1.3b на моем локальном компьютере, у меня возникает непредвиденная ошибка, связанная со следующим фрагментом кода: template <typename T> __global__ void moe_res_ma…

deepspeed opt 1.3b

15 июн '23 в 06:46

0 ответов

Тензорная параллель Deepspeed вызывает проблемы с выравниванием тензора при использовании токенизатора

Я пытался использовать deepspeed для проведения тензорных параллелей на Starcoder, поскольку у меня было несколько небольших графических процессоров, каждый из которых не мог по отдельности вместить всю модель. from transformers import AutoModelForC…

python pytorch transformer-model huggingface deepspeed

30 июл '23 в 06:32

0 ответов

LLava: deepspeed не может обнаружить редактируемый установленный пакет/модуль Python

Я установил пакет (модель llava из github) какpython install -e . В моей среде conda я загружаю llava как: >>python >>import llava Я поместил импорт в файл .py, когда использовал "python main.py. я могу импортироватьllava. Но используяde…

python-3.x pytorch deepspeed

22 ноя '23 в 18:38

0 ответов

ZeRO2 + конвейер: почему конвейер не может использовать ZeRo2?

В документе ZeRO есть примечание:ноль примечаний к документам. Когда я обучал большую модель с нулевой скоростью, появилось предупреждение о том, что я не могу одновременно использовать обучение конвейера и ноль2(градиенты разделения)? Но почему? По…

pipeline deepspeed

30 ноя '23 в 03:13

0 ответов

Deepspeed не разгружается на процессор

Deepspeed не может разгрузить операции на ЦП, как я и предполагал, когда у него заканчивается память графического процессора. Наверное, у меня какие-то настройки неправильные. Когда размер пакета увеличивается, выдается ошибка типа (https://stackru.…

azure gpu amd huggingface deepspeed

01 ноя '23 в 02:42

0 ответов

Точная настройка DeepSpeed для нескольких графических процессоров не работает

В настоящее время я пытаюсь точно настроить модель корейской ламы (13B) на частном наборе данных с помощью DeepSpeed и Flash Attention 2, TRL SFTTrainer. Я использую графические процессоры 2 * A100 80G для тонкой настройки, однако мне не удалось п…

huggingface-transformers deepspeed

08 ноя '23 в 05:08

0 ответов

Объект «MPTConfig» не имеет атрибута «hidden_size».

Я пытаюсь точно настроить модель MPT с помощью DeepSpeed на Databricks, но сталкиваюсь с этой ошибкой AttributeError. Вот MRE моего кода ниже: import transformers from transformers import AutoConfig model_path = 'mosaicml/mpt-7b' config = AutoConf…

databricks huggingface-transformers large-language-model deepspeed

11 окт '23 в 14:43