Потеря тренировки кофе не сходится

У меня проблема неконвергентной потери обучения. (размер партии: 16, средняя потеря:10). Я пробовал с помощью следующих методов + Варьировать скорость обучения lr (начальный lr = 0.002 вызывает очень высокие потери, около e+10). Тогда при lr = e-6 потери кажутся небольшими, но не сходятся. + Добавить инициализацию для смещения + Добавить регуляризацию для смещения и веса

Это структура сети и журнал потерь обучения

Надеюсь услышать от вас С наилучшими пожеланиями

0 ответов

Другие вопросы по тегам