Caffe: Что мне делать, если в память помещается только небольшая партия?
Я пытаюсь тренировать очень большую модель. Поэтому я могу разместить в памяти GPU только очень маленький размер пакета. Работа с небольшими размерами партии приводит к очень шумным оценкам градиента.
Что я могу сделать, чтобы избежать этой проблемы?
2 ответа
Вы можете изменить iter_size
в параметрах решателя. Кафе накапливает градиенты над iter_size
Икс batch_size
экземпляры на каждом шаге стохастического градиентного спуска. Так увеличивается iter_size
также может получить более стабильный градиент, когда вы не можете использовать большой batch_size из-за ограниченного объема памяти.
Как указано в этом посте, размер партии не является проблемой в теории (эффективность стохастического градиентного спуска была доказана с партией размером 1). Убедитесь, что вы правильно внедрили свою партию (образцы должны быть выбраны случайным образом по вашим данным).