Описание тега split-apply-combine

Операции разделения-применения-комбинирования относятся к манипуляциям с данными общего типа, когда функция / статистика вычисляется для нескольких фрагментов данных независимо. Чанки определяются значением одной переменной.

Операции разделения-применения-комбинирования относятся к манипуляциям с данными общего типа, когда функция / статистика вычисляется для нескольких фрагментов данных независимо. Чанки определяются значением одной переменной. Как следует из названия, они состоят из трех частей:

  1. Разделение данных по значению одной или нескольких переменных
  2. Независимое применение функции к каждому блоку данных
  3. Объединение данных в единое целое

Примеры операций разделения-применения-объединения:

  • Вычисление медианного дохода по странам на основе данных на индивидуальном уровне (возможно, добавление результата к тем же данным)
  • Создание наивысшего балла для каждого класса из баллов учащихся

Инструменты для оптимизации операций разделения-применения-объединения доступны для популярных сред статистических вычислений (неполный список):

  • В статистической среде R для этого есть специальные пакеты.

    • data.table является расширениемdata.frame который оптимизирован, среди прочего, для операций разделения-применения-объединения
    • dplyr и исходный пакет plyr обеспечивают удобный синтаксис и быструю обработку таких манипуляций.
  • В Python, то панда объекты библиотеки вводит данные, которые включают группу-по способу для этого типа операции.