Как соответствовать скорости обучения с обрезкой?
Фоном для вопроса является оптимизация гиперпараметров обучения нейронной сети путем запуска study.optimize()
с включенным по умолчанию сокращением и скоростью обучения в качестве параметра для оптимизации (этот вопрос можно обобщить для других гиперпарамов).
Высокие показатели обучения могут иметь хорошие результаты, первоначально снижая потери практически на каждом промежуточном этапе вначале, но приводя к плохому конечному результату.
низкие показатели обучения могут иметь плохие начальные результаты, но лучше конечную ценность.
с включенным сокращением не будет ли сокращена низкая скорость обучения из-за плохих промежуточных результатов? что означает, что последний лучший параметр будет неправильно выбран?
как это можно исправить? с помощью другого секатора поможет? Спасибо!
1 ответ
Я думаю, что защита испытаний, которые показывают низкие начальные баллы, но высокие итоговые баллы (как у поздних блюмеров), остается открытой проблемой. Как вы упомянули, существующие секаторы (например, MedianPruner) имеют тенденцию обрезать такие поздние цветы.
Одним из возможных решений может быть прогнозирование кривой обучения, которое является задачей для оценки окончательной оценки на основе промежуточных оценок. Если предиктор успешно оценивает окончательный результат, мы можем создать секатор, который защищает поздних цветущих. Я с нетерпением жду прогресса в прогнозировании кривой обучения.