Учитывая большой массив кортежей, как сгруппировать первый элемент каждого кортежа, чтобы суммировать последний элемент каждого кортежа без фрейма данных Pandas?

Question

Учитывая большой массив кортежей, как сгруппировать первый элемент каждого кортежа, чтобы суммировать последний элемент каждого кортежа без фрейма данных Pandas?

У меня есть большой список кортежей, где каждый кортеж содержит 9 строковых элементов:

      pdf_results = [
("Kohl's - Dallas", '-', "Kohl's Cafe", '03/18/22', 'RC', '8', '0', '16', '8'),
("Kohl's - Dallas", '-', "Kohl's Cafe", '03/18/22', 'SMI', '5', '0', '10', '5'),
("Kohl's - Dallas", '-', "Kohl's Cafe", '03/19/22', 'RC', '8', '0', '16', '8'),
("Kohl's - Dallas", '-', "Kohl's Cafe", '03/19/22', 'SMI', '5', '0', '10', '5'),
("Kohl's - Dallas", '-', "Kohl's Cafe", '03/20/22', 'RC', '8', '0', '16', '8'),
("Kohl's - Dallas", '-', "Kohl's Cafe", '03/20/22', 'SMI', '5', '0', '10', '5'),
("Kohl's - Dallas", '-', "Kohl's Cafe", '03/21/22', 'RC', '8', '0', '16', '8'),
("Kohl's - Dallas", '-', "Kohl's Cafe", '03/21/22', 'SMI', '5', '0', '10', '5'),
("Kohl's - Dallas", '-', "Kohl's Cafe", '03/23/22', 'SMI', '5', '0', '10', '5'),
("Kohl's - Dallas", '-', "Kohl's Cafe", '03/24/22', 'RC', '8', '0', '16', '8'),
("Kohl's - Dallas", '-', "Kohl's Cafe", '03/24/22', 'SMI', '5', '0', '10', '5'),
('Bronx-Lebanon Hospital Center', '-', 'Patient Trayline ', '03/18/22', 'RC', '8', '0', '16', '8'),
('Bronx-Lebanon Hospital Center', '-', 'Patient Trayline ', '03/18/22', 'SMI', '5', '0', '10', '5'),
('Bronx-Lebanon Hospital Center', '-', 'Patient Trayline ', '03/19/22', 'RC', '8', '0', '16', '8'),
('Bronx-Lebanon Hospital Center', '-', 'Patient Trayline ', '03/19/22', 'SMI', '5', '0', '10', '5')
]

Без использования фрейма данных Pandas, как лучше сгруппировать по первому элементу каждого кортежа, чтобы суммировать последний элемент каждого кортежа. Вывод должен выглядеть так:

      desired_output = [
("Kohl's - Dallas", 70),
("Bronx-Lebanon Hospital Center", 26)
]

я пытался использовать itertools.groupbyчто кажется наиболее подходящим решением; тем не менее, застряв на правильной итерации, индексации и суммировании последнего элемента каждого кортежа, не сталкиваясь с одним из следующих препятствий:

Последний элемент каждого кортежа имеет тип stringи при преобразовании в intпредотвращает итерацию как TypeError: 'int' object not iterable
ValueErrorподнимается, где invalid literal for int() with base 10: 'b'

Пытаться:

      from itertools import groupby

def getSiteName(siteChunk):
    return siteChunk[0]

siteNameGroup = groupby(pdf_results, getSiteName)

for key, group in siteNameGroup:
    print(key) # 1st element of tuple as desired
    for pdf_results in group:
        # Raises TypeError: unsupported operand type(s) for +: 'int' and 'str'
        print(sum(pdf_results[8]))
    print()

1

python tuples aggregation python-itertools itertools-groupby

Источник

user17432832 20 мар '22 в 14:56

4 ответа

Другие вопросы по тегам python tuples aggregation python-itertools itertools-groupby

user298607 20 мар '22 в 15:52 2022-03-20 15:52 · Answer 1 · 2022-03-20 15:52

Предполагая, что ваш список отсортирован по первому элементу, вы можете сделать:

      from itertools import groupby 

for k,v in groupby(pdf_results, key=lambda t: t[0]):
    print(k, sum(int(x[-1]) for x in v))

Отпечатки:

      Kohl's - Dallas 70
Bronx-Lebanon Hospital Center 26

Если заказ не отсортирован, просто используйте dictчтобы суммировать элементы, указанные первой записью кортежа:

      res={}

for t in pdf_results:
    res[t[0]]=res.get(t[0],0)+int(t[-1])

>>> res
{"Kohl's - Dallas": 70, 'Bronx-Lebanon Hospital Center': 26}

user12671057 20 мар '22 в 15:53 2022-03-20 15:53 · Answer 2 · 2022-03-20 15:53

Ты почти там. Просто измени свой

      for pdf_results in group:
    print(sum(pdf_results[8]))

к:

      print(sum(int(pdf_results[8])
          for pdf_results in group))

(Хотя я бы также переименовал в pdf_result, единственное число.)

0

Источник

user12671057 20 мар '22 в 15:53

user2200571 20 мар '22 в 16:06 2022-03-20 16:06 · Answer 3 · 2022-03-20 16:06

Это также будет работать:

      from collections import defaultdict

output = defaultdict(int)

for item in pdf_results:
    output[item[0]] += int(item[-1])

print(list(output.items()))

Выход

      [("Kohl's - Dallas", 70), ('Bronx-Lebanon Hospital Center', 26)]

0

Источник

user2200571 20 мар '22 в 16:06

user15526396 20 мар '22 в 15:13 2022-03-20 15:13 · Answer 4 · 2022-03-20 15:13

Почему бы не использовать простой forзацикливаться на пустом словаре?

      resultDict = {}
for value in pdf_results:
  if value[0] not in resultDict:
    resultDict[value[0]] = 0
  resultDict[value[0]] += float(value[len(value)-1])
print(resultDict)

Выход

      {"Kohl's - Dallas": 70.0,
'Bronx-Lebanon Hospital Center': 26.0}

Если словарь не то, что вам нужно, и вы настаиваете на том, чтобы вместо него был кортеж, вы можете использовать:

      list(resultDict.items())

Выход

      [("Kohl's - Dallas", 70.0), ('Bronx-Lebanon Hospital Center', 26.0)]