Потеря тренировки кофе не сходится
У меня проблема неконвергентной потери обучения. (размер партии: 16, средняя потеря:10). Я пробовал с помощью следующих методов + Варьировать скорость обучения lr (начальный lr = 0.002 вызывает очень высокие потери, около e+10). Тогда при lr = e-6 потери кажутся небольшими, но не сходятся. + Добавить инициализацию для смещения + Добавить регуляризацию для смещения и веса
Это структура сети и журнал потерь обучения
Надеюсь услышать от вас С наилучшими пожеланиями