Проверка работоспособности кода с одной партией переобучения. Хорошая цена за потерю?
В моей текущей настройке я пытаюсь обучить простую модель Берта (DistilBert) для задачи классификации с 30 классами.
Как обычно, я выполняю быструю проверку работоспособности, действительно ли мой код правильно обучается (пробовал реализацию с молнией)
Примерно через 200 эпох я получаю потерю 0,029, где моей функцией потерь является перекрестная энтропия.
Мой вопрос возникает из цитаты, которую я выбрал во время следующей лекции курса Full Stack Deep Learning от Беркли:
https://www.youtube.com/watch?v=f1JRFu7X-c8
В какой-то момент упоминается, что это хорошая практика, чтобы посмотреть, можете ли вы произвольно приблизить функцию потерь к 0.
Однако я реализовал раннюю остановку (терпение 10), поэтому я не подозреваю, что смогу продвинуться намного дальше этого значения, а это означает, что я не уверен, удовлетворяет ли моя проверка работоспособности произвольно закрытой части.
Согласно некоторым интерпретациям, значение кросс-энтропии 0,029 соответствует 93% веса, чтобы быть в правильном классе. Учитывая, что существует 30 классов, это могло бы быть удовлетворительным.
Любые идеи будут оценены.