Описание тега split-apply-combine
Операции разделения-применения-комбинирования относятся к манипуляциям с данными общего типа, когда функция / статистика вычисляется для нескольких фрагментов данных независимо. Чанки определяются значением одной переменной.
Операции разделения-применения-комбинирования относятся к манипуляциям с данными общего типа, когда функция / статистика вычисляется для нескольких фрагментов данных независимо. Чанки определяются значением одной переменной. Как следует из названия, они состоят из трех частей:
- Разделение данных по значению одной или нескольких переменных
- Независимое применение функции к каждому блоку данных
- Объединение данных в единое целое
Примеры операций разделения-применения-объединения:
- Вычисление медианного дохода по странам на основе данных на индивидуальном уровне (возможно, добавление результата к тем же данным)
- Создание наивысшего балла для каждого класса из баллов учащихся
Инструменты для оптимизации операций разделения-применения-объединения доступны для популярных сред статистических вычислений (неполный список):
В статистической среде R для этого есть специальные пакеты.
- data.table является расширением
data.frame
который оптимизирован, среди прочего, для операций разделения-применения-объединения - dplyr и исходный пакет plyr обеспечивают удобный синтаксис и быструю обработку таких манипуляций.
- data.table является расширением
В Python, то панда объекты библиотеки вводит данные, которые включают группу-по способу для этого типа операции.