Потеря тренировки кофе не сходится

У меня проблема неконвергентной потери обучения. (размер партии: 16, средняя потеря:10). Я пробовал с помощью следующих методов + Варьировать скорость обучения lr (начальный lr = 0.002 вызывает очень высокие потери, около e+10). Тогда при lr = e-6 потери кажутся небольшими, но не сходятся. + Добавить инициализацию для смещения + Добавить регуляризацию для смещения и веса