Описание тега parameter-server
0
ответов
Оптимизатор момента Tenseflow в распределенном кластере: где сохраняется импульс?
Я работаю над обучением модели на распределенном кластере с помощью Tensorflow. я использую tf.train.MomentumOptimizerкак оптимизатор. И я использую сервер параметров для поддержания глобального состояния в кластере PySpark. Я хочу знать, сохраняетс…
12 сен '19 в 10:40
0
ответов
Способы оптимизации сервера параметров тензорного потока
За последние несколько лет я провел много пользовательских оптимизаций в коде тензорного потока, и теперь оставшееся узкое место, похоже, лежит на сервере параметров. В частности, когда я делаю профилирование распределенного обучения на нескольких м…
28 фев '20 в 10:26
0
ответов
Сервер параметров TensorFlow и проблема пакетной нормализации
У меня есть рабочий класс, который я использую для распределения вычислений по нескольким графическим процессорам. Каждый рабочий вычисляет градиенты модели рабочего, а затем применяет эти градиенты к модели центрального сервера. Это хорошо работает…
30 окт '19 в 22:10
1
ответ
Оценщик TensorFlow: как делать прогноз при использовании сервера параметров?
TensorFlow Estimator прост в использовании для распределенного обучения со стратегией сервера параметров. Но я не могу делать прогнозы с помощью стратегии сервера параметров. Я не могу найти никаких ресурсов, чтобы представить эту деталь. пример код…
24 сен '19 в 04:52
0
ответов
SyncReplicasOptimizer зависает при добавлении assign op внутри apply_gradients fn
Обучение зависает после завершения первого шага обучения при использовании SyncReplicasOptimizer с обучением ParameterServer. Я внес изменения в вызов apply_gradients(), где я выполняю некоторые вычисления для aggregated_grads_and_vars, а затем прис…
15 июл '20 в 22:02
0
ответов
Глубокое обучение - агрегирование градиентов на серверах параметров
У меня есть несколько вопросов относительно серверов параметров и выполненного агрегирования градиента. Мой основной источник - книга "Погружение в глубокое обучение" [1]. Я предполагаю модель BSP, т.е. мы синхронизируемся после каждой мини-партии. …
04 ноя '20 в 19:36
0
ответов
ParameterServerStrategy TensorFlow не работает должным образом
Я хочу обучить модель с помощью ParameterServerStrategy, предоставляемого TensorFlow для API-интерфейса оценщика. Принимая во внимание учебник, я реализовал следующий код (я прилагаю часть кода, которая является важной): strategy = tf.distribute.exp…
15 сен '20 в 00:42
0
ответов
Результат обучения Spark word2vec сильно отличается от результата локальной реализации c.
Недавно я использую реализацию word2vec от spark mllib для обучения встраиванию слов. Я считаю, что эффективность сходства слов у искры плохая по сравнению с локальной реализацией c от Google. Я также пытаюсь использовать angel для обучения word2vec…
17 мар '21 в 19:42
0
ответов
Как MutableHashTable размещается на сервере параметров и может ли хэш-таблица обновляться параллельно с блокировкой?
Как MutableHashTable размещается на сервере параметров? Можно ли параллельно обновлять хеш-таблицу с блокировкой?
22 авг '21 в 11:57
0
ответов
Использование TF ElasticAverageOptimizer с API tf.estimators
Я хочу добавить Tensorflow ElasticAverageOptimizer к обучению моей модели с использованием метода серверов параметров. В настоящее время модель обучается распределенным способом с использованием . Я использую Tensorflow v1.15 api tf.estimator для об…
11 фев '22 в 20:49
0
ответов
ParameterServer и Worker блокируются, даже если координатор начинает планировать задачи
Я реализую простое распределенное обучающее приложение, используя ParameterServerStrategy из Tensorflow v2.4.1, следуя официальным инструкциям из tf.distribute.experimental.ParameterServerStrategy. Я распределил обучение по трем разным машинам. Запу…
27 янв '21 в 20:35
0
ответов
В распределенном обучении PS + Worker в tensorFlow1.x работники останавливают друг друга при выполнении sess.run()?
Это общий вопрос, касающийся парадигмы обучения PS + Workers в TensorFlow. Предположим этот сценарий: 1 PS + 2 Worker тренируются асинхронно (предположим, у них разная скорость обучения) и предположим, что все их графики имеют вид input -> linear…
07 сен '22 в 13:26
0
ответов
как построить наборы данных для подгонки модели keras, используя стратегию сервера параметров?
как построить наборы данных для соответствия модели keras, используя стратегию сервера параметров в tensorflow 2.x, и каждый рабочий читает разные наборы файлов? кажется, что ни один из существующих API, описанных в их документах, не может работать …
27 июн '23 в 11:58