Разбить столбец данных панды на несколько столбцов в одном файле

У меня есть фрейм данных с индексом, функциями и данными о времени, но данные о времени находятся в одном столбце, например:

особенность даты идентификатора

1 дата1

2 дата2 особенность2

1 дата2 особенность3

Я хочу преобразовать это в это:

особенность даты идентификатора

1 дата1 особенность1 дата2 особенность3

2 date2 feature2 NaN NaN

Уже сделал это путем явного определения фреймов данных, запросов и объединений, но не смог найти динамический путь. То, что я написал:

df = pd.read_excel('some path')

import pandas as pd

list1 = []
list2 = []
list3 = []

def placeholder_lists():
    for i in range(7):
        if len(str(i)) == 1:
            if i not in [8,9]:
                i = "0"+str(i+3)
            else:
                i = str(i+3)
        else:
            i = str(i+3)
        list1.append(i)

    for l in range(7):
        if len(str(l)) == 1:
            if l not in [10,9]:
                l = "0"+str(l+2)
            else:
                l = str(l+2)
        else:
            l = str(l+2)
        list2.append(l)

    for g in range(7):
        if len(str(g)) == 1:
            if g not in [9,8]:
                g = "0"+str(g+1)
            else:
                g = str(g+1)
        else:
            g = str(g+1)
        list3.append(g)

placeholder_lists()

for m,n,u in zip(list1,list2, list3):
    df01 = df.query('dw_creation_date == "01-AUG-17" ')
    e = str(u)+"-AUG-17"

    currentdf = df.query('dw_creation_date == "%s"' % e)

    if 1 == "01":
        currentdf = df01
    first = "df"+m
    second = "df"+n
    listie = range(50)
    first = second.join(currentdf.set_index('unique_identifier'), on='unique_identifier', lsuffix = listie[n])

... и ошибку я получаю:

first = second.join(currentdf.set_index('unique_identifier'), lsuffix = listie[n])

TypeError: join () не принимает аргументов с ключевыми словами

Есть идеи?

1 ответ

Решение
cols = ['id','date','feature']
df = pd.DataFrame({'date': {0: 'date1', 1: 'date2', 2: 'date2'}, 
                   'id': {0: 1, 1: 2, 2: 1}, 
                  'feature': {0: 'feature1', 1: 'feature2', 2: 'feature3'}}, columns=cols)

print (df)
   id   date   feature
0   1  date1  feature1
1   2  date2  feature2
2   1  date2  feature3

Вы можете groupby от id и применить новый df, Затем изменить unstack и сортировать столбцы по sort_index на втором уровне Multiindex,

Последнее выравнивание Multiindex в столбцах и reset_index,

df = df.groupby('id')['date','feature'] \
       .apply(lambda x: pd.DataFrame(x.values, columns=['feature','date'])) \
       .unstack() \
       .sort_index(1, level=1)

print (df)
   feature      date feature      date
         0         0       1         1
id                                    
1    date1  feature1   date2  feature3
2    date2  feature2    None      None


df.columns = ['{0[0]}_{0[1]}'.format(x)  for x in df.columns]
df = df.reset_index()
print (df)
   id feature_0    date_0 feature_1    date_1
0   1     date1  feature1     date2  feature3
1   2     date2  feature2      None      None
Другие вопросы по тегам