Запуск Triton Server Inference на экземпляре AWS GPU Graviton

В настоящее время я запускаю сервер Triton в производстве в облаке AWS, используя стандартный EC2 с поддержкой графического процессора (очень дорого).

Я видел, что эти новые экземпляры Graviton с поддержкой графического процессора могут быть на 40% дешевле в эксплуатации. Однако они работают на ARM (не AMD). Означает ли это, что на этом экземпляре я могу запустить стандартную версию сервера Triton?

Глядя на примечания к выпуску сервера Triton, я увидел, что он может работать на jetson nano, который является ARM nvidia gpu https://github.com/triton-inference-server/server/releases/tag/v1.12.0 .

Уменьшает ли этот метод мои расходы? Могу ли я запустить сервер Triton на этих инстансах гравитона?

Падает ли производительность при использовании этих экземпляров?

1 ответ

Глядя на репозиторий NGC контейнеров Nvidia, можно увидеть контейнеры, созданные для Arm64 для самой последней версии. На первый взгляд кажется, что он должен работать на G5g. Я бы порекомендовал попробовать контейнер и проверить, соответствует ли он вашим потребностям. Без тестирования вашей конкретной рабочей нагрузки невозможно заранее узнать, какой будет производительность и, следовательно, будет ли она дешевле.

Другие вопросы по тегам