Как я могу узнать, что данных обучения достаточно для машинного обучения?

Например: если я хочу обучить классификатор (может быть, SVM), сколько образцов мне нужно собрать? Есть ли метод измерения для этого?

3 ответа

Решение

Нелегко узнать, сколько образцов нужно собрать. Однако вы можете выполнить следующие действия:

Для решения типичной проблемы ОД:

  1. Построить набор данных с несколькими образцами, сколько? это будет зависеть от типа вашей проблемы, не тратьте много времени сейчас.
  2. Разбейте свой набор данных на поезде, перепрыгните, протестируйте и постройте свою модель.
  3. Теперь, когда вы создали модель ML, вам нужно оценить, насколько она хороша. Рассчитайте тестовую ошибку
  4. Если ваша ошибка теста превосходит ваши ожидания, соберите новые данные и повторяйте шаги 1-3, пока не достигнете уровня ошибок теста, который вас устраивает.

Этот метод будет работать, если ваша модель не страдает "высоким уклоном".

Это видео из курса машинного обучения Coursera, объясняет это.

К сожалению, не существует простого метода для этого.

Эмпирическое правило тем больше, чем лучше, но при практическом использовании вам необходимо собрать достаточное количество данных. Под достаточным я подразумеваю покрытие такой большой части моделируемого пространства, которое вы считаете приемлемым.

Кроме того, количество не все. Качество тестовых образцов также очень важно, т.е. обучающие образцы не должны содержать дубликатов.

Лично, когда у меня нет всех возможных данных тренировки одновременно, я собираю некоторые данные тренировки, а затем обучаю классификатор. Тогда у меня качество классификатора не приемлемо, я собираю больше данных и т. Д.

Вот некоторая наука об оценке качества тренировочного набора.

Это во многом зависит от характера данных и прогноза, который вы пытаетесь сделать, но, как простое правило, для начала ваши тренировочные данные должны примерно в 10 раз превышать число параметров вашей модели. Например, при обучении логистической регрессии с помощью N функций попробуйте начать с 10N обучающих примеров.

Эмпирический вывод "правила 10" см. По https://medium.com/@malay.haldar/how-much-training-data-do-you-need-da8ec091e956

Другие вопросы по тегам