Описание тега distributed-training

0 ответов

Как TensorFlow ParameterServerStrategy мог работать без проблем с задержкой?

В TensorFlow есть распределенная стратегия обучения под названием ParameterServerStrategy: https://www.tensorflow.org/guide/distributed_training. Как он мог работать без проблем с задержкой? Потому что он должен синхронизировать переменные между раб…
1 ответ

Распределенное обучение по локальному графическому процессору и графическому процессору colab

Я хочу настроить АЛЬБЕРТА. Я вижу, что можно распределить обучение нейронной сети по нескольким графическим процессорам, используя тензорный поток: https://www.tensorflow.org/guide/distributed_training Мне было интересно, можно ли распределить тонку…
1 ответ

Влияет ли tf.distribute.MirroredStrategy на результат обучения?

Я не понимаю, если MirroredStrategy оказывает какое-либо влияние на результат обучения. Под этим я имею в виду: модель, обученная на одном устройстве, такая же, как модель, обученная на нескольких устройствах? Я думаю, это должна быть та же модель, …
06 апр '20 в 18:32
0 ответов

Распределенное обучение нескольких сотрудников Tensorflow с сохранением модели keras в тот же каталог

Описание Я тренирую keras модель с использованием tensorflow 2.x с multiworker distributed stragtegy. И теперь я хочу сохранить обученную модель с помощью model.save функция. У каждого воркера есть код на Python model.save(model_dir). После обучения…
14 апр '20 в 06:23
0 ответов

Перезаписывают ли стратегии распределения тензорного потока назначения устройств?

Я использую API оценщика. Я настроил конвейер обучения, но хочу реализовать разные стратегии распространения, когда доступно несколько графических процессоров. Я хочу, чтобы иметь возможность выбирать между параллелизмом данных и моделью параллельно…
1 ответ

Как вы проходите обучение в связи с отменой технических конференций?

Просто помогаю понять, как обучать инженеров-программистов в моей компании. Как вы проходите обучение в свете работы из дома и / или технических конференций, которые отменяются в обозримом будущем?
28 мар '20 в 20:51
1 ответ

Схема динамического PS-Worker не может совместно использовать параметры в режиме распространения кластера

Я пытаюсь построить масштабируемую распределенную систему обучения со схемой ps-worker. В этой схеме каждый PS имеет информацию обо всех PS, и количество PS остается постоянным. Что касается каждого рабочего, он знает только себя и все PS. Используя…
12 май '20 в 00:31
0 ответов

Измените ptrace без передачи флага

Я провожу распределенное обучение на какой-то платформе с использованием MPI. Во время обучения я видел массивные распечатки вроде: Read -1, expected 5017600, errno = 1 Read -1, expected 5017600, errno = 1 Read -1, expected 5017600, errno = 1 Read -…
27 май '20 в 03:28
0 ответов

Установка Nvidia NCCL "никель" в систему windows

Я пытаюсь построить архитектуру параллельного обучения с распределенными данными с помощью PyTorch и наткнулся на библиотеку Horovod. В середине установки я обнаружил, что NCCL 2 (основное требование для Horovod) не доступен для Windows. Буду призна…
1 ответ

tf.data против tf.keras.preprocessing.image.ImageDataGenerator

Я читал о различных методах эффективной загрузки больших данных. Кажется, что tf.data работает лучше по сравнению с tf.keras.preprocessing.imageImageDataGenerator. Насколько я знаю, tf.data использует конвейерную обработку ЦП для эффективной загрузк…
0 ответов

Как запустить TensorFlow 2 в распределенной среде с Horovod?

Я успешно настроил распределенную среду и запустил пример с Horovod. И я также знаю, что если я хочу запустить тест на TensorFlow 1 в распределенной настройке, например, на 4 узлах, следуя руководству, отправка должна быть: $ horovodrun -np 16 -H se…
03 апр '20 в 18:45
2 ответа

тренироваться на нескольких устройствах

Я знаю, что TensorFlow предлагает API распределенного обучения, который может обучаться на нескольких устройствах, таких как несколько графических процессоров, процессоров, TPU или несколько компьютеров (рабочих). Следуйте этому документу: https://w…
0 ответов

Использование памяти Spark продолжает расти, пока продолжается модель обучения

Я обучаю модель U-Net с использованием TensorFlowOnSpark и набора данных изображений, которые могут уместиться в памяти моего кластера Spark, который имеет 3 рабочих узла (каждый - Ubuntu20 с памятью 11 ГБ). Каждый узел имеет 1 исполнитель и 4 ЦП с …
0 ответов

Многопользовательская стратегия TensorFlow

Недавно я работал над распределенной архитектурой обучения, включающей несколько удаленных устройств. Мне удалось заставить его работать в Ubuntu с помощью MultiworkerMirroredStratey, предложенного TensorFlow. Моя проблема заключается в следующем: м…
1 ответ

Простая распределенная обучающая программа на Python для моделей глубокого обучения от Horovod на кластере GPU

Я пытаюсь запустить пример кода python3 https://docs.databricks.com/applications/deep-learning/distributed-training/horovod-runner.html в кластере графического процессора databricks (с 1 драйвером и 2 рабочими). Среда Databricks: ML 6.6, scala 2.11,…
0 ответов

есть ли способ обучить модель машинного обучения на нескольких ноутбуках?

У меня два ноутбука, и я хочу использовать их для обучения модели DL. У меня нет опыта работы с распределенными системами, и я хочу знать, можно ли использовать вычислительную мощность двух ноутбуков вместе для обучения одной модели. Что оtf.distrib…
23 июл '20 в 00:52
1 ответ

Итерация по tf.Tensor не разрешена: AutoGraph преобразовал эту функцию. Это может означать, что вы пытаетесь использовать неподдерживаемую функцию.

Я пытаюсь адаптировать это репозиторий COLA к моему набору аудиоданных, который у меня есть в локальной папке. В основном я меняю файл contrastive.py, чтобы адаптировать метод _get_ssl_task_data() к моей новой базе данных. Однако я получаю сообщение…
0 ответов

Обучение модели TensorFlow с последовательным распределением операций на нескольких графических процессорах

Я хочу реализовать модель, операции которой выполняются на разных графических процессорах (и чьи соответствующие веса размещаются на разных графических процессорах). Я знаю, что это не оптимально, и мне, вероятно, следует вместо этого заняться полно…
1 ответ

Как использовать подклассы моделей в Keras?

Имея следующую модель, написанную в последовательном API: config = { 'learning_rate': 0.001, 'lstm_neurons':32, 'lstm_activation':'tanh', 'dropout_rate': 0.08, 'batch_size': 128, 'dense_layers':[ {'neurons': 32, 'activation': 'relu'}, {'neurons': 32…
0 ответов

Как ускорить обучение модели TF? MultiWorkerMirroredStrategy выглядит намного медленнее, чем нераспределенный

Использование кода в примере распределенного обучения Keras ; с использованием TF 2.4.1. Следующие другие документы: https://www.tensorflow.org/guide/distributed_training https://www.tensorflow.org/guide/distributed_training#multiworkermirroredstrat…
07 апр '21 в 01:41