Нужна помощь в интерпретации поведения кривых потерь
Я работаю над НЛП, используя предварительно обученную модель Distilbert, которую я настраиваю. Я использую оптимизатор Keras Adam. Среднеквадратичная ошибка - это моя функция потерь. Я разделяю данные на несколько складок и прогоняю каждую складку на несколько эпох. Ниже приведены мои кривые потерь в каждом сгибе. Я новичок, и мне нужна помощь в выяснении того, что именно говорят мои кривые потерь, чтобы лучше настроить гиперпараметры. Я вставляю свои кривые убытков для каждого сгиба ниже. Любая помощь приветствуется.
Моя тестовая ошибка составляет около 0,67. Это довольно много по сравнению с тем, что показывают кривые о потерях при проверке. Я в основном усредняю результаты каждого сгиба.