Описание тега horovod
0
ответов
ValueError: Элементы feature_columns должны быть _FeatureColumn. (Тензор потока 1.13)
Я сталкиваюсь с ошибкой ValueError при запуске Tensorflow-1.13 + Horovod-0.16 + Spark-0.24 + Petastorm-0.17. Это простая реализация модели model_fn и некоторых индикаторных столбцов, но она выдает ошибку, аналогичную элементам feature_columns, должн…
16 май '19 в 21:52
0
ответов
Стратегия Tensorflow Mirror и стратегия распределения Horovod
Я пытаюсь понять, в чем принципиальная разница между стратегией Tensorflow Mirror и стратегией распределения Horovod. Из документации и исследования исходного кода я обнаружил, что Horovod ( https://github.com/horovod/horovod) использует протокол пе…
05 мар '19 в 17:15
1
ответ
Tensorflow, Horovod и NVLINK NotFoundError
Я пытаюсь запустить нейросеть тензорного потока, которая работает на графических процессорах, используя библиотеку уберов Horovod. В то же время я пытаюсь запустить скрипт измерения, который измеряет nvlinks между несколькими графическими процессора…
09 мар '19 в 20:39
1
ответ
pip установить horovod не удается на conda + OSX 10.14
Бег pip install horovod в среде Конда с установленным pytorch привело к error: None of TensorFlow, PyTorch, or MXNet plugins were built. See errors above. где корень проблемы в верхней части стандартного вывода является ld: library not found for -ls…
22 мар '19 в 17:34
1
ответ
Как исправить: horovod.run.common.util.network.NoValidAddressesFound
Я пытаюсь сделать распределенное обучение с помощью 2 док-станции NVIDIA. Когда я попробовал с 2 хостами, это не сработало. Как мне решить эту проблему? Я попробовал эту команду: horovodrun -np 3 -H localhost:1 -p 12345 python keras_mnist_advanced.p…
30 мар '19 в 00:33
0
ответов
Хоровод висит на нескольких экземплярах
Среда:1. Framework: (TensorFlow, Keras, PyTorch, MXNet) Keras 2. Версия Framework: 2.2.4 3. Версия Horovod: 4. Версия MPI: 5. Версия CUDA:9.2 6. Версия NCCL:2.2.12 7. Версия Python:3 8. ОС и версия: Контрольный список:1. Вы искали вопросы, чтобы най…
04 апр '19 в 16:05
0
ответов
В чем различия между kubeflow, horovod, spark и Polyaxon для распределенного глубокого обучения
Я ищу простой способ обучения нескольких моделей тензорного потока с использованием кластера облачной платформы Google. Кажется, есть много разных способов сделать это, и мне интересно, какой из них я должен выбрать.
04 май '19 в 23:02
0
ответов
Как запустить tenorflow с horovod на локальной машине без графического процессора для отладки?
Прежде чем создавать ошибку, я хотел бы спросить здесь. Я, как и большинство из нас, отлаживаю код на локальной машине. Я ожидаю, что horovod предоставляет возможность работать на локальной машине (со всеми установленными зависимостями) для отладки …
14 май '19 в 23:22
0
ответов
ImportError: Расширение horovod.tensorflow не было построено
Продолжаю получать эту ошибку, и я переустановил horovod и tenorflow несколько раз. Пожалуйста помоги! Traceback (most recent call last): File "train.py", line 3, in <module> import horovod.tensorflow as hvd File "/home/tavishi/.local/lib/pyth…
24 май '19 в 21:05
0
ответов
Тензор не является ошибкой тензора после использования tf.IndexedSlices
Я пытаюсь реализовать сжатие градиента. Я планирую использовать tf.IndexedSlices, чтобы отправлять только ненулевые градиенты в horovod allreduce(). У меня есть код, где я вычисляю градиенты, используя compute_gradients, затем я вычисляю порог (меди…
25 июл '19 в 04:22
0
ответов
FailedPreconditionError: Ошибка при чтении переменной ресурса *** из контейнера
Я вижу следующую ошибку при запуске model.fit с обратными вызовами horovod. Если я пропущу обратные вызовы, то model.fit работает нормально. Примечание: я использую horovod.tensorflow.keras пакет и моя модель основана на tensorflow.keras (Я не прост…
26 авг '19 в 19:23
0
ответов
Как запустить задания Tensorflow - Spark в Kubernetes с помощью оператора Spark?
Моя команда ищет способ запуска заданий Spark, использующих библиотеку Tensorflow в Kubernetes. Мы используем Spark Operator для идиоматического запуска Spark на Kubernetes. Как мне создать пакет с заданием Spark (PySpark + TF) и заставить его работ…
23 июл '19 в 19:30
0
ответов
Пользовательская метрика: Использование калькулятора AucRoc для scikit learn с tf.keras
Я тренирую многолинейный классификатор, используя tf.keras и horovod, который имеет 14 классов. AucRoc используется в качестве метрики для оценки производительности классификатора. Я хочу иметь возможность использовать калькулятор AucRoc Scikit Lear…
12 июн '19 в 01:25
1
ответ
Spark dataframe в массив numpy через udf или без сбора в драйвер
Real life df - это массивный фрейм данных, который нельзя загрузить в память драйвера. Можно ли это сделать с помощью обычного udf или pandas? # Code to generate a sample dataframe from pyspark.sql import functions as F from pyspark.sql.types import…
28 фев '20 в 00:14
0
ответов
Обучение контрастным потерям при реализации нескольких графических процессоров
Не могли бы вы помочь мне понять, как тренировать любые типы контрастных потерь в режиме параллельных данных на нескольких графических процессорах? Я использую хоровод для работы с несколькими GPU. При обучении классификациям все довольно просто - к…
17 мар '20 в 19:01
1
ответ
tenorflow: tf.set_random_seed() тот же код, но получил разные результаты
Короче говоря, в tensorflow, кроме tf.set_random_seed(), есть ли какой-либо другой конфиг, который я должен установить для воспроизведения того же результата? в моем коде нет операции numpy. Длинная версия: я тренирую модель с хороводом, и хочу восп…
27 сен '19 в 11:00
0
ответов
Можно ли использовать Open MPI в Docker с сетью моста по умолчанию и переадресацией портов хоста?
Я пытаюсь использовать Open MPI в Docker с контейнерами на разных хостах, но подключенными к их соответствующим сетям моста Docker по умолчанию. Существует ряд TCP-портов, которые отображаются с хоста Docker на контейнер. mpirunпозволяет указать диа…
24 окт '19 в 14:46
0
ответов
Распространение DCGAN с хороводом на Sagemaker
Я пытаюсь распределить свою рабочую нагрузку на несколько графических процессоров с помощью AWS Sagemaker. Я использую собственный алгоритм для DCGAN с tenorflow 2.0. Пока код отлично работает на одном графическом процессоре. Я решил реализовать тот…
03 янв '20 в 09:13
1
ответ
Как я могу использовать графический процессор узла драйвера с Horovod в кластере Azure Databricks?
Когда я создаю кластер с одним драйвером + двумя рабочими процессами, по одному графическому процессору каждый, и пытаюсь запустить обучение на каждом графическом процессоре, я бы написал: from sparkdl import HorovodRunner hr = HorovodRunner(np=3) h…
09 янв '20 в 19:24
0
ответов
Horovod и TensorFlow: ошибка вычисления градиентов при использовании allgather()
Я пытаюсь вычислить медиану тензора для всех пакетов и всех процессов. Однако я получил ошибкуTypeError: Expected int32, got None of type 'NoneType' instead. при звонке optimizer.compute_gradients(loss). Кажется, что вычисление градиентов плохо рабо…
05 мар '20 в 03:38