Сохранение набора данных с передискретизацией в виде файла csv в pandas

Question

Сохранение набора данных с передискретизацией в виде файла csv в pandas

Я новичок в Python и заранее прошу прощения, если он слишком прост. Ничего не могу найти, и этот вопрос не помог.

Мой код

# Split data
y = starbucks_smote.iloc[:, -1]
X = starbucks_smote.drop('label', axis = 1)

# Count labels by type
counter = Counter(y)
print(counter)
Counter({0: 9634, 1: 2895})

# Transform the dataset
oversample = SMOTE()
X, y = oversample.fit_resample(X, y)

# Print the oversampled dataset
counter = Counter(y)
print(counter)
Counter({0: 9634, 1: 9634})

Как сохранить набор данных с передискретизацией для будущей работы?

Я старался

data_res = np.concatenate((X, y), axis = 1)
data_res.to_csv('sample_smote.csv')

Есть ошибка

ValueError: all the input arrays must have same number of dimensions, 
but the array at index 0 has 2 dimension(s) and the array at index 1 has 1 dimension(s)

Ценю любые советы!

1

python pandas numpy resampling smote

Источник

user7484093 24 авг '20 в 10:59

1 ответ

Решение

Другие вопросы по тегам python pandas numpy resampling smote

user2805083 24 авг '20 в 11:14 2020-08-24 11:14 · Accepted Answer · 2020-08-24 11:14

Вы можете создать фрейм данных:

data_res = pd.DataFrame(X)
data_res['y'] = y

а затем сохраните data_res в CSV.

Решение на основе конкатенации od numpy.arrays тоже возможно, но np.vstack необходимо для обеспечения соответствия размеров:

data_res = np.concatenate((X, np.vstack(y)), axis = 1)
data_res = pd.DataFrame(data_res)