Описание тега parameter-server

0 ответов

Оптимизатор момента Tenseflow в распределенном кластере: где сохраняется импульс?

Я работаю над обучением модели на распределенном кластере с помощью Tensorflow. я использую tf.train.MomentumOptimizerкак оптимизатор. И я использую сервер параметров для поддержания глобального состояния в кластере PySpark. Я хочу знать, сохраняетс…
0 ответов

Способы оптимизации сервера параметров тензорного потока

За последние несколько лет я провел много пользовательских оптимизаций в коде тензорного потока, и теперь оставшееся узкое место, похоже, лежит на сервере параметров. В частности, когда я делаю профилирование распределенного обучения на нескольких м…
28 фев '20 в 10:26
0 ответов

Сервер параметров TensorFlow и проблема пакетной нормализации

У меня есть рабочий класс, который я использую для распределения вычислений по нескольким графическим процессорам. Каждый рабочий вычисляет градиенты модели рабочего, а затем применяет эти градиенты к модели центрального сервера. Это хорошо работает…
1 ответ

Оценщик TensorFlow: как делать прогноз при использовании сервера параметров?

TensorFlow Estimator прост в использовании для распределенного обучения со стратегией сервера параметров. Но я не могу делать прогнозы с помощью стратегии сервера параметров. Я не могу найти никаких ресурсов, чтобы представить эту деталь. пример код…
0 ответов

SyncReplicasOptimizer зависает при добавлении assign op внутри apply_gradients fn

Обучение зависает после завершения первого шага обучения при использовании SyncReplicasOptimizer с обучением ParameterServer. Я внес изменения в вызов apply_gradients(), где я выполняю некоторые вычисления для aggregated_grads_and_vars, а затем прис…
0 ответов

Глубокое обучение - агрегирование градиентов на серверах параметров

У меня есть несколько вопросов относительно серверов параметров и выполненного агрегирования градиента. Мой основной источник - книга "Погружение в глубокое обучение" [1]. Я предполагаю модель BSP, т.е. мы синхронизируемся после каждой мини-партии. …
0 ответов

ParameterServerStrategy TensorFlow не работает должным образом

Я хочу обучить модель с помощью ParameterServerStrategy, предоставляемого TensorFlow для API-интерфейса оценщика. Принимая во внимание учебник, я реализовал следующий код (я прилагаю часть кода, которая является важной): strategy = tf.distribute.exp…
0 ответов

Результат обучения Spark word2vec сильно отличается от результата локальной реализации c.

Недавно я использую реализацию word2vec от spark mllib для обучения встраиванию слов. Я считаю, что эффективность сходства слов у искры плохая по сравнению с локальной реализацией c от Google. Я также пытаюсь использовать angel для обучения word2vec…
17 мар '21 в 19:42
0 ответов

Как MutableHashTable размещается на сервере параметров и может ли хэш-таблица обновляться параллельно с блокировкой?

Как MutableHashTable размещается на сервере параметров? Можно ли параллельно обновлять хеш-таблицу с блокировкой?
22 авг '21 в 11:57
0 ответов

Использование TF ElasticAverageOptimizer с API tf.estimators

Я хочу добавить Tensorflow ElasticAverageOptimizer к обучению моей модели с использованием метода серверов параметров. В настоящее время модель обучается распределенным способом с использованием . Я использую Tensorflow v1.15 api tf.estimator для об…
0 ответов

ParameterServer и Worker блокируются, даже если координатор начинает планировать задачи

Я реализую простое распределенное обучающее приложение, используя ParameterServerStrategy из Tensorflow v2.4.1, следуя официальным инструкциям из tf.distribute.experimental.ParameterServerStrategy. Я распределил обучение по трем разным машинам. Запу…
0 ответов

В распределенном обучении PS + Worker в tensorFlow1.x работники останавливают друг друга при выполнении sess.run()?

Это общий вопрос, касающийся парадигмы обучения PS + Workers в TensorFlow. Предположим этот сценарий: 1 PS + 2 Worker тренируются асинхронно (предположим, у них разная скорость обучения) и предположим, что все их графики имеют вид input -> linear…
0 ответов

как построить наборы данных для подгонки модели keras, используя стратегию сервера параметров?

как построить наборы данных для соответствия модели keras, используя стратегию сервера параметров в tensorflow 2.x, и каждый рабочий читает разные наборы файлов? кажется, что ни один из существующих API, описанных в их документах, не может работать …