Описание тега train-test-split

2 ответа

Как разбить набор данных для обучения / тестирования, где некоторые строки зависят?

У меня есть набор данных субъектов, и у каждого из них есть ряд строк в моем кадре данных панд (каждое измерение является строкой, и субъект может измерять несколько раз). Я хотел бы разделить свои данные на обучающие и тестовые наборы, но я не могу…
31 авг '17 в 11:41
0 ответов

Разница между tf.nn.embedding_lookup и предварительно обученной матрицей встраивания doc2vec для тестовых данных

В машинном обучении мы разделяем данные, чтобы обучать данные и тестировать данные (например, данные имеют только один столбец - список приложений, который представляет собой список установленных пользователем приложений, например com.aaa,com.bb,com…
07 май '18 в 06:25
0 ответов

Проблемы при объединении обучающих данных из разных образцов

У меня есть два файла данных обучения, каждый из которых был разделен по отдельности как данные обучения и тестирования. как извлечь обучающие образцы с заданными файлами У меня четыре файла file1: некоторые функции file2: некоторые другие функции с…
1 ответ

Поведение train_test_split() от Scikit-learn

Мне любопытно, как метод train_test_split() Scikit-learn будет вести себя в следующем сценарии: Мнимый набор данных: id, count, size 1, 4, 8 2, 5, 9 3, 6, 0 скажем, я бы разделил его на два отдельных набора, как это (сохраняя "id" в обоих): id, coun…
04 дек '17 в 13:48
0 ответов

Обучение и тестирование данных разбиты на r, но не случайно

Я хочу разделить данные в процессе обучения и тестирования, но не случайно. Я хочу, чтобы первые 80% строк рассматривались как тренировки, а отдых - как тестирование. rows=nrow(data) index=0.80*row train=data[1:index] Кто-нибудь может помочь?
07 май '18 в 19:46
0 ответов

Как я могу сохранить свой прогноз DF:

Predictions = lm.predict(X_test) Predictions.to_csv("F:/Final_values.csv",sep=',') У меня есть ошибка, как: AttributeError Traceback (последний вызов был последним) в () ----> 1 Predictions.to_csv ("F: /Final_values.csv", sep = ',') AttributeError: …
02 авг '18 в 13:36
1 ответ

Как сгенерировать поезд-тест-сплит на основе идентификатора группы?

У меня есть следующие данные: pd.DataFrame({'Group_ID':[1,1,1,2,2,2,3,4,5,5], 'Item_id':[1,2,3,4,5,6,7,8,9,10], 'Target': [0,0,1,0,1,1,0,0,0,1]}) Group_ID Item_id Target 0 1 1 0 1 1 2 0 2 1 3 1 3 2 4 0 4 2 5 1 5 2 6 1 6 3 7 0 7 4 8 0 8 5 9 0 9 5 10 …
0 ответов

Сортировка данных обучения и тестирования в порядке возрастания перед использованием

Я новичок в питоне. Мне нужна помощь в сортировке тренировок и тестировании данных в порядке возрастания перед их использованием. Скажи, что мой фрейм данных df = pd.DataFrame({'a':[1,2,2,3,4,5,6,6,6,9,9,9,0,0,4,6,8],'b':range(0,17)},columns=['a','b…
03 авг '18 в 09:13
1 ответ

Как сохранить лучшие результаты оценки, то есть сохранить разделение № 5 из 6 разделений

Я разделил свои данные на 6 временных рядов, и лучший результат для моего дизайна - 5-й. Я хотел бы получить помощь в том, как сохранить график для лучшего разделения, другими словами, я могу сохранить результат для разделения 5. Я пытаюсь сравнить …
15 авг '18 в 00:24
1 ответ

Неправильная стратегия разделения поезда / теста

Речь идет о неправильно выбранной стратегии разделения поезда / теста в модели RandomForest. Я знаю, что выбор тестового набора таким образом дает неправильный вывод, но я хотел бы знать, почему. (Модель просматривает данные за предыдущие дни и пыта…
30 авг '17 в 08:21
0 ответов

Почему не работает train_split?

При изучении Python и нейронных сетейУ меня была модель нейронной сети, которая была явно переоснащена.Поэтому я решил разделить данные поезда в наборе тестов и проверок.Таким образом, поезд и результаты у стали: traintest и ytest, и trainval и yval…
20 окт '18 в 13:01
0 ответов

StratifiedShuffleSplit со многими классами и небольшим размером теста

У меня есть набор данных размером ~7000 с 2000+ различных классов. С помощью StratifiedShuffleSplit с test_size=0.2 Я получаю ошибку: ValueError: The test_size = 1364 should be greater or equal to the number of classes = 2030 Очевидно, что балансиро…
10 окт '18 в 18:18
1 ответ

Train Test Split для получения списка данных - Pandas

У меня есть список DataFrames, которые я хочу разделить на обучающие и тестовые наборы. Для одного DataFrame я мог бы сделать следующее, Получить длину тестового разбиения split_point = len(df)- 125 а потом, train, test = df[0:split_point], df[split…
19 июл '17 в 21:05
1 ответ

sklearn TimeSeriesSplit Ошибка: KeyError: '[ 0 1 2 ...] не в индексе'

Я хочу использовать TimeSeriesSplit из sklearn на следующем фрейме данных для прогнозирования суммы: Поэтому для подготовки X и Y я делаю следующее: X = df.drop(['sum'],axis=1) y = df['sum'] а затем накормить этих двоих, чтобы: for train_index, test…
3 ответа

Случайно распределить файлы в поезд / тест с заданным соотношением

В данный момент я пытаюсь создать сценарий установки, способный настроить рабочее пространство для меня так, чтобы мне не нужно было делать это вручную. Я начал делать это в bash, но быстро понял, что это не сработает. Моя следующая идея состояла в …
1 ответ

Разделить набор данных раздела на тренировку и тестирование (данные тренинга содержат 200 примеров для каждого класса)

У меня есть данные 5 класса. В каждом классе приблизительно 1000, 1200, 1500, 1900, 2000 образцов. Я хотел бы иметь 200 примеров каждого класса в данных обучения. Другие образцы будут данными испытаний. То есть обучающие данные будут состоять из [20…
0 ответов

Как избежать ошибки при расщеплении с целевой категориальной переменной?

Есть ли ограничение на тип данных при использовании train_test_split. У меня есть набор данных, в котором все особенности "X" являются целыми числами, а целевой "Y" является категоричным... в этом случае train_test_split выдает ошибку take_nd(). Но …
06 сен '18 в 06:33
1 ответ

Для оценки модели прогнозирования на день вперед. Для моего теста на разделение поезда я делаю 80:20 или делаю (остаток дня: последний день)?

У меня есть данные временных рядов за 3 месяца с 15-минутными интервалами. (один день имеет 96 временных интервалов) У меня есть столбец температуры [Temp] и столбец солнечной освещенности [SI](интенсивность солнца). Моя модель должна прогнозировать…
1 ответ

Python: ValueError слишком много значений для распаковки (ожидается 2)

Я пытаюсь найти лучшую модель xgboost через GridSearchCV и в качестве перекрестной проверки хочу использовать апрельские целевые данные. Вот код: x_train.head() x_train y_train.head() y_train from sklearn.model_selection import GridSearchCV from skl…
1 ответ

Разница между выполнением перекрестной проверки и validation_data/validation_split в Keras

Сначала я разбил набор данных на поезд и протестировал, например: X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.4, random_state=999) Я тогда использую GridSearchCV с перекрестной проверкой, чтобы найти наибо…