Описание тега distributed-tensorflow

Используйте TensorFlow на нескольких машинах / устройствах.
0 ответов

Распределенное выполнение в активном режиме с использованием tenorflow

Согласно недавно опубликованному техническому документу и RFC на GitHub, tenorflow eager в настоящее время поддерживает распределенное выполнение. Упоминается, что аналогично графическому режиму мы можем активно запускать операцию на удаленном устро…
0 ответов

Стратегия Tensorflow Mirror и стратегия распределения Horovod

Я пытаюсь понять, в чем принципиальная разница между стратегией Tensorflow Mirror и стратегией распределения Horovod. Из документации и исследования исходного кода я обнаружил, что Horovod ( https://github.com/horovod/horovod) использует протокол пе…
0 ответов

Как провести распределенное обучение с распределением только входного конвейера в Tensorflow?

В настоящее время у меня есть 4 1080 графических процессоров на моей машине, и у меня довольно мощный процессор для выполнения моего проекта классификации изображений. Однако, так как моя модель очень мала, но мои тренировочные данные очень велики (…
0 ответов

Что такое шаг в tf.train.MonitoredTrainingSession?

Я хотел бы знать, что является шагом в методе MonitoredTrainingSession? Чем он отличается от эпохи? # Initialize TensorFlow monitored training session with tf.train.MonitoredTrainingSession( checkpoint_dir = "./Checkpoints/", hooks = [tf.train.StopA…
14 апр '19 в 04:23
0 ответов

Как запустить многопроцессорный питон с распределенным тензорным потоком на слерме

Я хочу запустить многопроцессорную программу распределенного тензорного потока на slurm. Скрипт должен использовать многопроцессорную библиотеку python для параллельного открытия различных сеансов на разных узлах. Этот подход работает при тестирован…
0 ответов

Есть ли способ запустить несколько независимых сеансов тензорного потока параллельно

Я пытаюсь оценить классификатор с помощью повторной выборки, поэтому я хотел бы запустить мою модель несколько раз, используя разные подмножества набора данных. Есть ли способ запустить несколько сеансов тензорного потока параллельно, чтобы все сеан…
03 июн '19 в 14:52
0 ответов

"Количество глобальных шагов не увеличивается при переходе с одного GPU на несколько GPU"

Попытка увеличить количество глобальных шагов для улучшения производительности модели Для обучения модели используйте tf.estimator и пытаетесь увеличить глобальный шаг с помощью нескольких GPU.Для DNNClassifier применяются следующие конфигурации ка…
1 ответ

Распределенное обучение с TensorFlow2 не работает

Я пытаюсь заставить распределенный TF работать в VS-Code с версией Tensorflow 2.0.0a (версия CPU). Я использую Windows и Linux System (два разных компьютера), и оба работают хорошо в одиночку. Для распространяемого TF я следовал учебному руководству…
0 ответов

Распределенное обучение Tensorflow не оценивает модель должным образом

Я использую асинхронное распределенное обучение в Tensorflow, используя стратегию сервера параметров. Несколько рабочих на нескольких процессорах с оценщиком в качестве отдельного узла. Пример tf_config сервера параметров: индекс и тип могут отличат…
1 ответ

Реализация mask-r-cnn с распределенным тензорным потоком

Я тренирую сеть mask-r-cnn, которая построена на тензорном потоке и керасе. Я ищу способ сократить время обучения, поэтому я подумал реализовать его с помощью tenorflow-distribution. Я работаю с mask-r-cnn в течение некоторого времени, но, похоже, т…
0 ответов

Где сохраняется окончательная модель объединенного распределенного кераса / тензорного потока?

Извините меня. У меня есть вопрос. Я работаю с распределенной версией tenorflow и keras, и мне удалось заставить пример сети глубокого обучения работать над несколькими программами (скриптами python), работающими вместе, но я не знаю, как сохранить …
0 ответов

Ошибка распределенного тензорного потока: проверка не удалась: DeviceNameUtils::ParseFullName(new_base, &parsed_name)

Попытка запустить пример распределенного тензорного потока на CPU из: https://github.com/tmulc18/Distributed-TensorFlow-Guide/blob/master/Distributed-Setup/dist_setup.py Команды для запуска примера можно найти по адресу: https://github.com/tmulc18/D…
0 ответов

Получение ошибки при создании pex из библиотеки TF-YARN для распределенного обучения

Мы пробуем использовать библиотеку TF-YARN для обучения DL на потоке, поскольку наши данные находятся в Hadoop. Но мы получаем ошибку в cluster_pack.upload_env() Ниже приводится полная ошибка: ОШИБКА:cluster_pack.packaging: невозможно создать pex Tr…
1 ответ

Распределенный Keras MultiWorkerMirroredStrategy не работает с преобразованием embedding_column из функции ввода переменной длины

Я пробую TensorFlow 2.0 и тестирую распределенное решение keras, но сталкиваюсь с проблемами: embedding_column конвертирует из variable-length input feature не работает с распределенными Keras MultiWorkerMirroredStrategy. С локальным обучением (нера…
0 ответов

Распределенная ошибка тензорного потока CPU+GPU с примером

Я установил NVIDIA toolkit 10.0, tensorflow 1.15 и tensorflow-gpu 1.15, cuDNN 10.0. Я последовал примеру здесь # On ps0.example.com: $ python trainer.py \ --ps_hosts=ps0.example.com:2222,ps1.example.com:2222 \ --worker_hosts=worker0.example.com:2222…
02 июл '20 в 00:13
0 ответов

Рабочий механизм sessions.run(tf.variables_initializer(var_list) с распределенным тензорным потоком

Я запускаю приложение с распределенным тензорным потоком с 20 PS и 100 Workers. И есть главный рабочий по имени worker0, который берет на себя дополнительную работу, например, инициализацию переменных. Когда я пытаюсь инициализировать некоторые очен…
10 сен '19 в 12:28
0 ответов

Поддерживается ли TLS в распределенной связи Tensorflow gRPC?

Мне было интересно, поддерживается ли TLS в текущем распределенном тензорном потоке с gRPC? Я читаю код, https://github.com/tensorflow/tensorflow/blob/r1.14/tensorflow/core/distributed_runtime/rpc/grpc_server_lib.h реализация GetServerCredentialshtt…
17 сен '19 в 21:08
0 ответов

Простой способ использовать один графический процессор через IP в тензорном потоке

Я искал в Интернете вдоль и поперек, но не нашел простого ответа. По сути, у меня есть настольный компьютер с одним графическим процессором и ноутбук, на котором находится мой основной код. Моя цель - использовать распределенный тензорный поток для …
15 ноя '19 в 03:46
0 ответов

tf.Session('grpc://ipaddress:port') эквивалент в tensorflow 2.0

Допустим, у меня есть ноутбук A и компьютер B с одним графическим процессором. Я пытаюсь просто подключить графический процессор B к A, что означает, что я хочу использовать графический процессор B в A для обучения моделей. Просто моя цель - сделать…
15 ноя '19 в 05:53
0 ответов

Серверы параметров Tensorflow на SageMaker

Я пытаюсь понять, как работают серверы параметров (PS) для распределенного обучения в Tensorflow на Amazon SageMaker. Чтобы сделать вещи более конкретными, я могу запустить пример из AWS с помощью PS: https://github.com/aws-samples/amazon-sagemaker-…