Должен ли я использовать все доступные данные для обучения моей модели глубокого обучения? Каковы плюсы и минусы использования только подмножества?

У меня очень сложная модель нейронной сети на основе LSTM, которую я обучаю на парах повторяющихся вопросов Quora. В исходном наборе данных примерно 400 000 пар предложений. Для обучения всего (или 80%) набора данных потребуется много вычислительной мощности и времени вычислений. Было бы неразумно, если бы я выбрал случайное подмножество набора данных (скажем, только 8000 пар) для обучения и 2000 для тестирования? Будет ли это серьезно повлиять на производительность? Всегда ли "чем больше данных, тем лучше модель"?

1 ответ

Как правило, глубокие нейронные сети обычно получают больше данных.

Если у вас есть хорошо описанная модель и правильно спроектированные входные данные, вы проиграете, если выберете меньшее подмножество своего набора данных.

Однако вы всегда можете оценить это с помощью показателей. Проверьте, как уменьшается ваш проигрыш при каждом размере выборки, начиная с ваших 8000 пар.

При больших проблемах всегда нужно помнить, что время вычислений обычно тоже велико.

Другие вопросы по тегам