Подмножество по группе с data.table

Предположим, у меня есть таблица данных, содержащая некоторых бейсболистов:

library(plyr)
library(data.table)

bdt <- as.data.table(baseball)

Для каждого игрока (по идентификатору) я хочу найти строку, соответствующую году, в котором он сыграл больше всего игр. Это просто в plyr:

ddply(baseball, "id", subset, g == max(g))

Какой эквивалентный код для data.table?

Я старался:

setkey(bdt, "id") 
bdt[g == max(g)]  # only one row
bdt[g == max(g), by = id]  # Error: 'by' or 'keyby' is supplied but not j
bdt[, .SD[g == max(g)]] # only one row

Это работает:

bdt[, .SD[g == max(g)], by = id] 

Но это только на 30% быстрее, чем plyr, предполагая, что это, вероятно, не идиоматично.

1 ответ

Решение

Вот быстрый data.table путь:

bdt[bdt[, .I[g == max(g)], by = id]$V1]

Это позволяет избежать строительства .SDчто является узким местом в ваших выражениях.

редактировать: на самом деле, основная причина медленного ОП не в том, что он имеет .SD в этом, но тот факт, что он использует его определенным образом - путем вызова [.data.table, который в данный момент имеет огромные накладные расходы, поэтому запуск его в цикле (когда кто-то делает by) накапливает очень большой штраф.

Другие вопросы по тегам