В чем разница между аппаратными архитектурами Convnets, разработанными для обучения, и разработанными для логического вывода?
Нужно ли аппаратно реализовывать gradient descent
алгоритм для создания ускорителя обучения CNN? или мне просто нужно реализовать, как в случае с выводом, сверточные двигатели (массив множителей и аккумуляторов), пул и ReLU.
Другими словами, могу ли я создать учебный ускоритель CNN, чтобы просто получать операции прямой связи и позволить, например, программному обеспечению и процессору компьютера выполнять работу по градиентному спуску, обновлять параметры сети и, соответственно, давать инструкции обратно ускорителю?