Каков размер партии в кафе или конве
Я думал, что размер партии только для производительности. Чем больше партия, тем больше изображений вычисляется одновременно, чтобы тренировать мою сеть. Но я понял, что если я изменю размер партии, моя чистая точность улучшится. Поэтому я не понял, что такое размер партии. Может кто-нибудь объяснить мне, что такое размер партии?
1 ответ
Кафе обучается с использованием Stochastic-Gradient-Descend (SGD): то есть на каждой итерации он вычисляет (стохастический) градиент параметров относительно обучающих данных и делает движение (= изменяет параметры) в направлении градиента.
Теперь, если вы напишете уравнения для градиента по тренировочным данным, вы заметите, что для точного вычисления градиента вам нужно оценивать все ваши тренировочные данные на каждой итерации: это непомерно много времени, особенно когда тренировочные данные становятся больше. и больше.
Чтобы преодолеть это, SGD приближает точный градиент стохастическим способом, отбирая только небольшую часть обучающих данных на каждой итерации. Эта небольшая часть - партия.
Таким образом, чем больше размер пакета, тем точнее оценка градиента на каждой итерации.
TL; DR: размер партии влияет на точность расчетного градиента на каждой итерации, поэтому изменение размера партии влияет на "путь", по которому идет оптимизация, и может изменить результаты процесса обучения.