Подмножество по группе с data.table
Предположим, у меня есть таблица данных, содержащая некоторых бейсболистов:
library(plyr)
library(data.table)
bdt <- as.data.table(baseball)
Для каждого игрока (по идентификатору) я хочу найти строку, соответствующую году, в котором он сыграл больше всего игр. Это просто в plyr:
ddply(baseball, "id", subset, g == max(g))
Какой эквивалентный код для data.table?
Я старался:
setkey(bdt, "id")
bdt[g == max(g)] # only one row
bdt[g == max(g), by = id] # Error: 'by' or 'keyby' is supplied but not j
bdt[, .SD[g == max(g)]] # only one row
Это работает:
bdt[, .SD[g == max(g)], by = id]
Но это только на 30% быстрее, чем plyr, предполагая, что это, вероятно, не идиоматично.
1 ответ
Вот быстрый data.table
путь:
bdt[bdt[, .I[g == max(g)], by = id]$V1]
Это позволяет избежать строительства .SD
что является узким местом в ваших выражениях.
редактировать: на самом деле, основная причина медленного ОП не в том, что он имеет .SD
в этом, но тот факт, что он использует его определенным образом - путем вызова [.data.table
, который в данный момент имеет огромные накладные расходы, поэтому запуск его в цикле (когда кто-то делает by
) накапливает очень большой штраф.