Моделирование темы - разделение данных (перекрестная проверка)
Почему случайное разделение данных в тематическом моделировании не является хорошим подходом?
Предположим, типичный пример MNIST: если я позволю поезду с номерами от 0 до 8 и номером 9 в наборе тестов (пока не предположим, что валидация установлена), моя модель не сможет правильно предсказать число 9 в мой тестовый набор.
Разве разделение статей для моделирования тем не является аналогичной проблемой, поскольку темы конечны? Как моя модель может предсказать тему, которая еще не была раскрыта? Мне интересно это из-за этого объяснения от Google, где случайное разделение не всегда хорошая идея.
https://developers.google.com/machine-learning/data-prep/construct/sampling-splitting/example