Количество backprops как показатель производительности для нейронных сетей
Я читал статью о SRCNN и обнаружил, что они используют "количество backprops" для оценки того, насколько хорошо работает сеть, то есть какую сеть можно узнать после x backprops (насколько я понимаю). Я хотел бы знать, что на самом деле означает количество backprops. Это только количество образцов обучающих данных, которые использовались во время обучения? Или, может быть, количество мини-партий? Может быть, это одно из предыдущих чисел, умноженное на количество изучаемых параметров в сети? Или что-то совершенно другое? Может быть, есть другое, более распространенное имя для этого, которое я мог бы где-то зациклить и прочитать о нем больше, потому что я не смог найти ничего полезного, выполнив поиск по "числу обратных операций" или "числу обратных распространений"?
Дополнительный вопрос: насколько широко используется этот показатель и насколько он хорош?
2 ответа
Я читаю их бумаги с 2016 года:
- Автор ={C. Донг и Ч. К. Лой и К. Он и Х. Тан},
- journal = {Транзакции IEEE по анализу образов и машинному интеллекту},
- title = {Сверхразрешение изображения с использованием глубоких сверточных сетей},
Так как они даже не упоминают партии, я предполагаю, что они делают обратное распространение, чтобы обновить свои веса после каждого образца / изображения.
Другими словами, их размер пакета (мини-размер пакета) равен 1 образцу.
Таким образом, количество обратных распространений означает количество партий в конце концов, что является довольно распространенным показателем, а именно. в документе PSNR (потеря) по количеству партий (или обычно потеря по эпохам).
Дополнительный вопрос: я прихожу к выводу, что они просто не придерживались общего тезауруса машинного обучения или глубокого обучения.
Вопрос BonusBonus: они используют метрику потерь после n пакетов, чтобы продемонстрировать, как различные сетевые архитектуры могут учиться на наборах данных обучения с различным размером.
Я бы предположил, что после того, как это означает, сколько сеть узнала после обратного распространения n раз. Его, скорее всего, взаимозаменяемо с "после обучения на n образцов..."
Это может немного отличаться, если они используют рекуррентную сеть, поскольку у них может быть больше сэмплов, запущенных в прямой проп, чем в обратной пропроп. (По какой-то причине я не могу получить ссылку на бумагу для загрузки, поэтому не уверен).
Исходя из вашего количества вопросов, я думаю, что вы можете обдумать это:)
Количество backprops не является метрикой, используемой обычно. Возможно, они используют это здесь, чтобы продемонстрировать скорость обучения в зависимости от того, какой метод оптимизации они используют. Но в большинстве случаев это не актуальная метрика.