Почему размеры тензоров должны быть кратны 8 при использовании смешанной точности для обучения модели?

Так что я недавно искал смешанную точность обучения и наткнулся на эту ссылку,

Еще одна ссылка, чтобы убедиться, что приведенная выше информация подходит от Nvidia

Из раздела 2.2

На практике более высокая производительность достигается, когда размеры A и B кратны 8. cuDNN v7 и cuBLAS 9 включают в себя некоторые функции, которые вызывают операции с тензорным ядром, по соображениям производительности они требуют, чтобы размеры карты входных и выходных объектов были кратны 8

Итак, почему размеры должны быть кратны 8?

PS это совершенно новая концепция для меня, просто читать об этом и интересно, почему это так..

Спасибо

0 ответов

Другие вопросы по тегам