Проверка работоспособности кода с одной партией переобучения. Хорошая цена за потерю?

В моей текущей настройке я пытаюсь обучить простую модель Берта (DistilBert) для задачи классификации с 30 классами.

Как обычно, я выполняю быструю проверку работоспособности, действительно ли мой код правильно обучается (пробовал реализацию с молнией)

Примерно через 200 эпох я получаю потерю 0,029, где моей функцией потерь является перекрестная энтропия.

Мой вопрос возникает из цитаты, которую я выбрал во время следующей лекции курса Full Stack Deep Learning от Беркли:

https://www.youtube.com/watch?v=f1JRFu7X-c8

В какой-то момент упоминается, что это хорошая практика, чтобы посмотреть, можете ли вы произвольно приблизить функцию потерь к 0.

Однако я реализовал раннюю остановку (терпение 10), поэтому я не подозреваю, что смогу продвинуться намного дальше этого значения, а это означает, что я не уверен, удовлетворяет ли моя проверка работоспособности произвольно закрытой части.

Согласно некоторым интерпретациям, значение кросс-энтропии 0,029 соответствует 93% веса, чтобы быть в правильном классе. Учитывая, что существует 30 классов, это могло бы быть удовлетворительным.

Любые идеи будут оценены.

0 ответов

Другие вопросы по тегам