Сумма значений столбцов, начинающихся с той же строки в кадре данных панд

У меня есть датафрейм с около 100 столбцов, который выглядит как

   Id  Economics-1  English-107  English-2  History-3  Economics-zz  Economics-2  \
0  56          1            1          0        1       0           0   
1  11          0            0          0        0       1           0   
2   6          0            0          1        0       0           1   
3  43          0            0          0        1       0           1   
4  14          0            1          0        0       1           0   

   Histo      Economics-51      Literature-re         Literatureu4  
0           1            0           1                0  
1           0            0           0                1  
2           0            0           0                0  
3           0            1           1                0  
4           1            0           0                0  

поэтому моя цель состоит в том, чтобы оставить только больше глобальных категорий: только английский, история, литература и записать в эти рамки данных сумму значений его компонентов, например, для английского: английский-107, английский-2

    Id  Economics      English    History  Literature  
0  56          1            1          2        1                     
1  11          1            0          0        1                    
2   6          0            1          1        0                     
3  43          2            0          1        1                     
4  14          0            1          1        0          

так что для тех предложений, я верен эти два метода

      first method:

df=pd.read_csv(file_path, sep='\t')
df['History']=df.loc[df[df.columns[pd.Series(df.columns).str.startswith('History')]].sum(axes=1)]

Второй метод:

    df=pd.read_csv(file_path, sep='\t')
    filter_col = [col for col in list(df) if col.startswith('History')]
    df['History']=0 #initialize value, otherwise throws KeyError
    for c in df[filter_col]:
    df['History']=df[filter_col].sum(axes=1)
    print df['History', df[filter_col]]

, но оба дают мне ошибку

TypeError: 'DataFrame' objects are mutable, thus they cannot be hashed

Не могли бы вы предложить, как я могу отладить эту ошибку или, возможно, другое решение, для моей проблемы. Пожалуйста, обратите внимание, что у меня большой фрейм данных с около 100 столбцами и 400000 строк, поэтому я ищу действительно оптимизированное решение, как с loc в пандах

3 ответа

Решение

Я бы посоветовал вам сделать что-то другое, а именно выполнить транспозицию, сгруппировать по префиксу строк (исходным столбцам), суммировать и снова транспонировать.

Учтите следующее:

df = pd.DataFrame({
        'a_a': [1, 2, 3, 4],
        'a_b': [2, 3, 4, 5],
        'b_a': [1, 2, 3, 4],
        'b_b': [2, 3, 4, 5],
    })

Сейчас

[s.split('_')[0] for s in df.T.index.values]

это префикс столбцов. Так

>>> df.T.groupby([s.split('_')[0] for s in df.T.index.values]).sum().T
    a   b
0   3   3
1   5   5
2   7   7
3   9   9

делает то, что вы хотите.

В вашем случае не забудьте разделить, используя '-' персонаж.

Вы можете использовать их для создания суммы столбцов, начинающихся с определенного имени,

      df['Economics']= df[list(df.filter(regex='Economics'))].sum(axis=1)

Используя блестящую идею DSM:

from __future__ import print_function

import pandas as pd

categories = set(['Economics', 'English', 'Histo', 'Literature'])

def correct_categories(cols):
    return [cat for col in cols for cat in categories if col.startswith(cat)]    

df = pd.read_csv('data.csv', sep=r'\s+', index_col='Id')

#print(df)
print(df.groupby(correct_categories(df.columns),axis=1).sum())

Выход:

    Economics  English  Histo  Literature
Id
56          1        1      2           1
11          1        0      0           1
6           1        1      0           0
43          2        0      1           1
14          1        1      1           0

Вот еще одна версия, которая заботится о проблемах "Гисто / История"..

from __future__ import print_function

import pandas as pd

#categories = set(['Economics', 'English', 'Histo', 'Literature'])

#
# mapping: common starting pattern: desired name
#
categories = {
    'Histo': 'History',
    'Economics': 'Economics',
    'English': 'English',
    'Literature': 'Literature'
}

def correct_categories(cols):
    return [categories[cat] for col in cols for cat in categories.keys() if col.startswith(cat)]

df = pd.read_csv('data.csv', sep=r'\s+', index_col='Id')
#print(df.columns, len(df.columns))
#print(correct_categories(df.columns), len(correct_categories(df.columns)))
#print(df.groupby(pd.Index(correct_categories(df.columns)),axis=1).sum())

rslt = df.groupby(correct_categories(df.columns),axis=1).sum()
print(rslt)
print('History\n', rslt['History'])

Выход:

    Economics  English  History  Literature
Id
56          1        1        2           1
11          1        0        0           1
6           1        1        0           0
43          2        0        1           1
14          1        1        1           0
History
 Id
56    2
11    0
6     0
43    1
14    1
Name: History, dtype: int64

PS Вы можете добавить недостающие категории в categories карта / словарь

Другие вопросы по тегам