Описание тега distributed-tensorflow
Используйте TensorFlow на нескольких машинах / устройствах.
0
ответов
Распределенное выполнение в активном режиме с использованием tenorflow
Согласно недавно опубликованному техническому документу и RFC на GitHub, tenorflow eager в настоящее время поддерживает распределенное выполнение. Упоминается, что аналогично графическому режиму мы можем активно запускать операцию на удаленном устро…
15 мар '19 в 04:06
0
ответов
Стратегия Tensorflow Mirror и стратегия распределения Horovod
Я пытаюсь понять, в чем принципиальная разница между стратегией Tensorflow Mirror и стратегией распределения Horovod. Из документации и исследования исходного кода я обнаружил, что Horovod ( https://github.com/horovod/horovod) использует протокол пе…
05 мар '19 в 17:15
0
ответов
Как провести распределенное обучение с распределением только входного конвейера в Tensorflow?
В настоящее время у меня есть 4 1080 графических процессоров на моей машине, и у меня довольно мощный процессор для выполнения моего проекта классификации изображений. Однако, так как моя модель очень мала, но мои тренировочные данные очень велики (…
08 мар '19 в 01:10
0
ответов
Что такое шаг в tf.train.MonitoredTrainingSession?
Я хотел бы знать, что является шагом в методе MonitoredTrainingSession? Чем он отличается от эпохи? # Initialize TensorFlow monitored training session with tf.train.MonitoredTrainingSession( checkpoint_dir = "./Checkpoints/", hooks = [tf.train.StopA…
14 апр '19 в 04:23
0
ответов
Как запустить многопроцессорный питон с распределенным тензорным потоком на слерме
Я хочу запустить многопроцессорную программу распределенного тензорного потока на slurm. Скрипт должен использовать многопроцессорную библиотеку python для параллельного открытия различных сеансов на разных узлах. Этот подход работает при тестирован…
14 май '19 в 01:26
0
ответов
Есть ли способ запустить несколько независимых сеансов тензорного потока параллельно
Я пытаюсь оценить классификатор с помощью повторной выборки, поэтому я хотел бы запустить мою модель несколько раз, используя разные подмножества набора данных. Есть ли способ запустить несколько сеансов тензорного потока параллельно, чтобы все сеан…
03 июн '19 в 14:52
0
ответов
"Количество глобальных шагов не увеличивается при переходе с одного GPU на несколько GPU"
Попытка увеличить количество глобальных шагов для улучшения производительности модели Для обучения модели используйте tf.estimator и пытаетесь увеличить глобальный шаг с помощью нескольких GPU.Для DNNClassifier применяются следующие конфигурации ка…
17 июн '19 в 12:08
1
ответ
Распределенное обучение с TensorFlow2 не работает
Я пытаюсь заставить распределенный TF работать в VS-Code с версией Tensorflow 2.0.0a (версия CPU). Я использую Windows и Linux System (два разных компьютера), и оба работают хорошо в одиночку. Для распространяемого TF я следовал учебному руководству…
05 июн '19 в 11:45
0
ответов
Распределенное обучение Tensorflow не оценивает модель должным образом
Я использую асинхронное распределенное обучение в Tensorflow, используя стратегию сервера параметров. Несколько рабочих на нескольких процессорах с оценщиком в качестве отдельного узла. Пример tf_config сервера параметров: индекс и тип могут отличат…
28 авг '19 в 13:37
1
ответ
Реализация mask-r-cnn с распределенным тензорным потоком
Я тренирую сеть mask-r-cnn, которая построена на тензорном потоке и керасе. Я ищу способ сократить время обучения, поэтому я подумал реализовать его с помощью tenorflow-distribution. Я работаю с mask-r-cnn в течение некоторого времени, но, похоже, т…
29 авг '19 в 11:32
0
ответов
Где сохраняется окончательная модель объединенного распределенного кераса / тензорного потока?
Извините меня. У меня есть вопрос. Я работаю с распределенной версией tenorflow и keras, и мне удалось заставить пример сети глубокого обучения работать над несколькими программами (скриптами python), работающими вместе, но я не знаю, как сохранить …
27 июл '19 в 21:25
0
ответов
Ошибка распределенного тензорного потока: проверка не удалась: DeviceNameUtils::ParseFullName(new_base, &parsed_name)
Попытка запустить пример распределенного тензорного потока на CPU из: https://github.com/tmulc18/Distributed-TensorFlow-Guide/blob/master/Distributed-Setup/dist_setup.py Команды для запуска примера можно найти по адресу: https://github.com/tmulc18/D…
19 июн '19 в 23:56
0
ответов
Получение ошибки при создании pex из библиотеки TF-YARN для распределенного обучения
Мы пробуем использовать библиотеку TF-YARN для обучения DL на потоке, поскольку наши данные находятся в Hadoop. Но мы получаем ошибку в cluster_pack.upload_env() Ниже приводится полная ошибка: ОШИБКА:cluster_pack.packaging: невозможно создать pex Tr…
07 авг '20 в 10:48
1
ответ
Распределенный Keras MultiWorkerMirroredStrategy не работает с преобразованием embedding_column из функции ввода переменной длины
Я пробую TensorFlow 2.0 и тестирую распределенное решение keras, но сталкиваюсь с проблемами: embedding_column конвертирует из variable-length input feature не работает с распределенными Keras MultiWorkerMirroredStrategy. С локальным обучением (нера…
15 окт '19 в 07:05
0
ответов
Распределенная ошибка тензорного потока CPU+GPU с примером
Я установил NVIDIA toolkit 10.0, tensorflow 1.15 и tensorflow-gpu 1.15, cuDNN 10.0. Я последовал примеру здесь # On ps0.example.com: $ python trainer.py \ --ps_hosts=ps0.example.com:2222,ps1.example.com:2222 \ --worker_hosts=worker0.example.com:2222…
02 июл '20 в 00:13
0
ответов
Рабочий механизм sessions.run(tf.variables_initializer(var_list) с распределенным тензорным потоком
Я запускаю приложение с распределенным тензорным потоком с 20 PS и 100 Workers. И есть главный рабочий по имени worker0, который берет на себя дополнительную работу, например, инициализацию переменных. Когда я пытаюсь инициализировать некоторые очен…
10 сен '19 в 12:28
0
ответов
Поддерживается ли TLS в распределенной связи Tensorflow gRPC?
Мне было интересно, поддерживается ли TLS в текущем распределенном тензорном потоке с gRPC? Я читаю код, https://github.com/tensorflow/tensorflow/blob/r1.14/tensorflow/core/distributed_runtime/rpc/grpc_server_lib.h реализация GetServerCredentialshtt…
17 сен '19 в 21:08
0
ответов
Простой способ использовать один графический процессор через IP в тензорном потоке
Я искал в Интернете вдоль и поперек, но не нашел простого ответа. По сути, у меня есть настольный компьютер с одним графическим процессором и ноутбук, на котором находится мой основной код. Моя цель - использовать распределенный тензорный поток для …
15 ноя '19 в 03:46
0
ответов
tf.Session('grpc://ipaddress:port') эквивалент в tensorflow 2.0
Допустим, у меня есть ноутбук A и компьютер B с одним графическим процессором. Я пытаюсь просто подключить графический процессор B к A, что означает, что я хочу использовать графический процессор B в A для обучения моделей. Просто моя цель - сделать…
15 ноя '19 в 05:53
0
ответов
Серверы параметров Tensorflow на SageMaker
Я пытаюсь понять, как работают серверы параметров (PS) для распределенного обучения в Tensorflow на Amazon SageMaker. Чтобы сделать вещи более конкретными, я могу запустить пример из AWS с помощью PS: https://github.com/aws-samples/amazon-sagemaker-…
10 фев '20 в 22:33