Densenet с потерей шарнира в наборе данных CIFAR
Я пытаюсь использовать потерю шарнира с densenet в наборе данных CIFAR 100. Обучение сходится к некоторой точке, и после этого обучения нет. Точность намного ниже, чем у Densenet с функцией потерь CrossEntropy. Я пробовал с разными темпами обучения и падениями веса.
Есть идеи, почему я не могу правильно тренировать Densenet с потерей шарнира? Я могу без проблем использовать функцию потери петель с Resnet.