Caffe: Что мне делать, если в память помещается только небольшая партия?

Я пытаюсь тренировать очень большую модель. Поэтому я могу разместить в памяти GPU только очень маленький размер пакета. Работа с небольшими размерами партии приводит к очень шумным оценкам градиента.
Что я могу сделать, чтобы избежать этой проблемы?

2 ответа

Решение

Вы можете изменить iter_size в параметрах решателя. Кафе накапливает градиенты над iter_size Икс batch_size экземпляры на каждом шаге стохастического градиентного спуска. Так увеличивается iter_size также может получить более стабильный градиент, когда вы не можете использовать большой batch_size из-за ограниченного объема памяти.

Как указано в этом посте, размер партии не является проблемой в теории (эффективность стохастического градиентного спуска была доказана с партией размером 1). Убедитесь, что вы правильно внедрили свою партию (образцы должны быть выбраны случайным образом по вашим данным).

Другие вопросы по тегам