Как реализовать SQL Groupby в RAPIDS

Question

Как реализовать SQL Groupby в RAPIDS

Я пытаюсь перевести запрос SQL для использования RAPIDS. Рассмотрим упрощенный запрос ниже:

(SELECT min(a), max(b), c
FROM T
GROUP BY c) AS result

Я проверил приведенный ниже код, но является ли это оптимальным решением? Нужна ли сортировка по групповому ключу? Есть ли более чистый / более идиоматический способ написать это?

from pygdf import DataFrame as gdf

T = gdf(...)
df = gdf({'a':T.a, 'c':T.c}).groupby('c').min().sort_values(by='c')
df['max_b'] = gdf({'b':T.b, 'c':T.c}).groupby('c').max().sort_values(by='c').max_b
result = gdf({'a': df.min_a, 'b': df.max_b, 'c':df.c})

1

python rapids

Источник

user1255621 20 ноя '18 в 16:49

1 ответ

Решение

Вы можете использовать BlazingSQL, который представляет собой механизм SQL, построенный на основе RAPIDS. Полное раскрытие, я работаю в BlazingSQL.

from blazingsql import BlazingContext
bc = BlazingContext()

# Create Table from GDF
bc.create_table('myTableName', gdf)

# Query
result = bc.sql('SELECT min(a), max(b), c FROM main.myTableName GROUP BY c').get()
result_gdf = result.columns

#Print GDF 
print(result_gdf)

1

Источник

user3413068 22 июл '19 в 22:17

Другие вопросы по тегам python rapids

user10697131 23 ноя '18 в 20:35 2018-11-23 20:35 · Accepted Answer · 2018-11-23 20:35

Вы можете переписать свою агрегацию, используя .agg функция, чтобы сделать это более простым:

from pygdf import DataFrame as gdf

T = gdf(...)
df = gdf({'a':T.a, 'b': T.b, 'c':T.c}).groupby('c').agg({'a': 'min', 'b': 'max'})
result = gdf({'a': df.min_a, 'b': df.max_b, 'c':df.c})

3

Источник

user10697131 23 ноя '18 в 20:35