Размер мини-партии во время прогнозирования

Я использую модель lstm. Я понимаю, что означает размер мини-партии при обучении модели. В основном это связано с обновлением градиента в пакете, а не после каждого образца. Но что означает размер мини-партии на этапе прогнозирования. Я не могу понять роль размера партии на этапе прогнозирования. Может ли изменение повлиять на мои результаты?

2 ответа

Концепция пакета является более общей, чем просто вычисление градиентов. Большинство сред нейронной сети позволяют вам вводить пакет изображений в вашу сеть, и они делают это, потому что это более эффективно и легко распараллеливается на GPU.

Увеличение или уменьшение размера пакета для прогнозирования обычно влияет только на эффективность вычислений, а не на результаты. Только в случае модели с состоянием, такой как LSTM с состояниями (не нормальным LSTM), вы получите результаты, которые меняются в зависимости от размера пакета.

Размер партии и т. Д. Относятся только к обучению. После того, как ваша модель узнала (обучена), она просто сохранит веса. Во время тестирования или прогнозирования она будет использовать сохраненные веса для прогнозирования.

По умолчанию ванильный LSTM сбрасывает состояния ячеек после размера пакета, но вы можете изменить это. Вы можете сделать это, чтобы обновить состояния после эпохи или даже поддерживать все состояния.

Другие вопросы по тегам