Какова формула для расчета теоретической производительности графического процессора Nvidia?
Как вы получаете максимальное количество операций с плавающей точкой (в флопах) от графического процессора?
Например, на графическом процессоре GK20A (встроенном в Tegra K1), который может развивать частоту до 852 МГц и имеет 192 ядра cuda (каждое из них может выполнять только одну базовую операцию fp за цикл - если я правильно прочитал спецификации) и может идти до 852 МГц мое первое предположение было в основном: 852 * 192 = 163 GFLOPS.
Тем не менее, Nvidia может похвастаться как минимум 380 GFLOPS для Tegra K1. Что мне не хватает?