Почему размеры тензоров должны быть кратны 8 при использовании смешанной точности для обучения модели?
Так что я недавно искал смешанную точность обучения и наткнулся на эту ссылку,
Еще одна ссылка, чтобы убедиться, что приведенная выше информация подходит от Nvidia
Из раздела 2.2
На практике более высокая производительность достигается, когда размеры A и B кратны 8. cuDNN v7 и cuBLAS 9 включают в себя некоторые функции, которые вызывают операции с тензорным ядром, по соображениям производительности они требуют, чтобы размеры карты входных и выходных объектов были кратны 8
Итак, почему размеры должны быть кратны 8?
PS это совершенно новая концепция для меня, просто читать об этом и интересно, почему это так..
Спасибо