Как последовательно горячо кодировать кадры данных с изменяющимися значениями?
Я получаю поток контента в виде фреймов данных, каждый пакет с разными значениями в столбцах. Например, одна партия может выглядеть так:
day1_data = {'state': ['MS', 'OK', 'VA', 'NJ', 'NM'],
'city': ['C', 'B', 'G', 'Z', 'F'],
'age': [27, 19, 63, 40, 93]}
и еще один, как:
day2_data = {'state': ['AL', 'WY', 'VA'],
'city': ['A', 'B', 'E'],
'age': [42, 52, 73]}
как столбцы могут быть горячо закодированы таким образом, чтобы возвращалось постоянное количество столбцов?
Если я использую pandas get_dummies() в каждой партии, он возвращает различное количество столбцов:
df1 = pd.get_dummies(pd.DataFrame(day1_data))
df2 = pd.get_dummies(pd.DataFrame(day2_data))
len(df1.columns) == len(df2.columns)
Я могу получить все возможные значения для каждого столбца, вопрос даже в том, что с этой информацией, какой самый простой способ генерировать одно горячее кодирование для каждой ежедневной партии, чтобы число столбцов было одинаковым?
1 ответ
Хорошо, так как все возможные значения известны заранее. Тогда ниже немного хакерский способ сделать это.
import numpy as np
import pandas as pd
# This is a one time process
# Keep all the possible data here in lists
# Can add other categorical variables too which have this type of data
all_possible_states= ['AL', 'MS', 'MS', 'OK', 'VA', 'NJ', 'NM', 'CD', 'WY']
all_possible_cities= ['A', 'B', 'C', 'D', 'E', 'G', 'Z', 'F']
# Declare our transformer class
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
class MyOneHotEncoder(BaseEstimator, TransformerMixin):
def __init__(self, all_possible_values):
self.le = LabelEncoder()
self.ohe = OneHotEncoder()
self.ohe.fit(self.le.fit_transform(all_possible_values).reshape(-1,1))
def transform(self, X, y=None):
return self.ohe.transform(self.le.transform(X).reshape(-1,1)).toarray()
# Allow the transformer to see all the data here
encoders = {}
encoders['state'] = MyOneHotEncoder(all_possible_states)
encoders['city'] = MyOneHotEncoder(all_possible_cities)
# Do this for all categorical columns
# Now this is our method which will be used on the incoming data
def encode(df):
tup = (encoders['state'].transform(df['state']),
encoders['city'].transform(df['city']),
# Add all other columns which are not to be transformed
df[['age']])
return np.hstack(tup)
# Testing:
day1_data = pd.DataFrame({'state': ['MS', 'OK', 'VA', 'NJ', 'NM'],
'city': ['C', 'B', 'G', 'Z', 'F'],
'age': [27, 19, 63, 40, 93]})
print(encode(day1_data))
[[ 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.
0. 0. 27.]
[ 0. 0. 0. 0. 0. 1. 0. 0. 0. 1. 0. 0. 0. 0.
0. 0. 19.]
[ 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.
1. 0. 63.]
[ 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
0. 1. 40.]
[ 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1.
0. 0. 93.]]
day2_data = pd.DataFrame({'state': ['AL', 'WY', 'VA'],
'city': ['A', 'B', 'E'],
'age': [42, 52, 73]})
print(encode(day2_data))
[[ 1. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.
0. 0. 42.]
[ 0. 0. 0. 0. 0. 0. 0. 1. 0. 1. 0. 0. 0. 0.
0. 0. 52.]
[ 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 1. 0.
0. 0. 73.]]
Пройдите через комментарии, и если все еще проблема, спросите меня.