Использование RapidMiner для обучения модели из нескольких файлов
Я работаю над каким-то проектом, и мне нужно тренировать мою модель, используя файлы данных. Проблема в том, что размер файла данных, который будет использоваться для обучения модели, составляет 10 гигов. Итак, я не могу импортировать данные сразу. Альтернатива - обрезать данные и использовать только 5% данных тренировки. Но я могу потерять некоторую информацию. У меня вопрос: можно ли обучить модель, разбив файл на несколько файлов?
1 ответ
Можно использовать Update Model
оператор, чтобы обновить ранее созданную модель с новыми примерами набора данных. Не все модельные операторы могут использоваться таким образом, Naive Bayes и k-NN работают так же, как и W-IBk Weka.
Было бы возможно создать процесс в RapidMiner, чтобы разделить файлы на более мелкие части, прочитать их один за другим и создать модель из них.