Описание тега split-apply-combine

Операции разделения-применения-комбинирования относятся к манипуляциям с данными общего типа, когда функция / статистика вычисляется для нескольких фрагментов данных независимо. Чанки определяются значением одной переменной.
1 ответ

Выполнение расчетов на столбцах, созданных из ddply

Я использую ddply в subset рассчитать некоторые показатели и свернуть таблицу по мере необходимости. Некоторые из показателей, которые я хочу рассчитать, должны использовать обобщенные столбцы, созданные в результате ddply операция. Вот функция с пр…
09 ноя '14 в 21:30
2 ответа

Найдите половину каждой группы с помощью Pandas GroupBy

Мне нужно выбрать половину кадра данных, используя groupbyгде размер каждой группы неизвестен и может варьироваться в зависимости от группы. Например: index summary participant_id 0 130599 17.0 13 1 130601 18.0 13 2 130603 16.0 13 3 130605 15.0 13 4…
1 ответ

Как отсортировать по матрице строку, содержащую данные подгруппы

В матрице A, каждый столбец представляет выходную переменную, а каждая строка представляет чтение (всего 6 строк). Каждый выход имеет определенный размер подгруппы (группы по 3 строки). я нуждаюсь Aэлементы должны быть отсортированы в вертикальном н…
1 ответ

Как использовать splitapply/findgroups на кластерных / непоследовательных графах?

Мне нужно реализовать функцию splitapply для непоследовательного индекса узла в графе. Я реализовал функцию splitapply на графе, который имеет непоследовательные кластеры. Индексные номера возвращаемых кластеров были последовательно пронумерованы, н…
0 ответов

Объединение одинаковых значений в столбцах и подсчет dplyr

Я получил эту таблицу (образец всего набора данных) ниже, и мне нужно сжать ее до двух рядов (зимой и летом) и подсчитать медали для каждого сезона. Как я могу сделать это для всего набора данных? TAG TEAM SEASON MEDALS 1 AFG afganistan winter 1 2 A…
27 дек '18 в 15:23
2 ответа

Простая скользящая средняя на несбалансированной панели в R

Я работаю с неуравновешенными, нерегулярно расположенными временными рядами поперечного сечения. Моя цель - получить вектор отстающей скользящей средней для вектора "Количество", сегментированный "Предметом". Другими словами, скажем, что следующие с…
3 ответа

Вырезать переменную по-другому на основе другой группирующей переменной

Пример: у меня есть набор данных по высоте по полу. Я хотел бы разделить высоты на низкие и высокие, где точки разреза определяются как среднее значение - 2sd для каждого пола. пример набора данных: set.seed(8) df = data.frame(sex = c(rep("M",100), …
15 сен '16 в 15:42
2 ответа

Работать со столбцами на основе переменной

У меня есть следующие данные df <- structure(list(year = c(2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2016L…
20 апр '17 в 15:43
4 ответа

r пометить разные значения для одного и того же пользователя в строке

У меня есть данные следующим образом: userID <-c(1,1,1,2,2,2,3,3,3) product <-c("a","a","a","b","b","c","a","b","c") result <-c(0,0,0,0,0,0,0,0,0) df<-data.frame(userID,product,result) Я хочу заполнить результат 1, если у userID есть раз…
15 окт '14 в 10:13
0 ответов

Matlab2016 с функцией, которая имеет нескалярный вывод

У меня есть таблица в Matlab2016, и я хотел бы применить функцию для группировки столбцов. Я знаю, что функция splitapply может сделать это, но я бы хотел использовать такую ​​функцию, как tiedrank, где вывод не является скалярным, но все же специфи…
24 май '16 в 20:34
2 ответа

Как я могу отсортировать DF и промежуточный итог на основе прибыли и числа дней

У меня есть данные в CSV, который выглядит следующим образом.. CUSIP BuyDate SellDate BuyAmount SellAmount Profit DaysHolding Over365Days 037833100 12/1/2015 3/1/2017 45 27 -18 456 1 17275R102 1/28/2016 2/21/2017 28 25 -3 390 1 38259P508 10/29/2015 …
09 мар '17 в 14:49
3 ответа

Найти лучшие децили из фрейма данных по группе

Я пытаюсь создать новые переменные, используя функцию и lapply вместо того, чтобы работать прямо в данных с циклами. Я использовал Stata и решил бы эту проблему с помощью метода, аналогичного тому, который обсуждался здесь. Поскольку именование пере…
01 май '15 в 03:18
2 ответа

Python Panda объединяет данные ряда в фрейме данных

В рамках фрейма данных я пытаюсь разделить-применить-объединить столбец, содержащий поэлементные данные серии. (Я искал SO, но не нашел ничего, относящегося к рядам внутри фреймов данных.) Фрейм данных: import pandas as pd from pandas import Series,…
06 сен '17 в 20:26
1 ответ

Парная корреляция

У меня есть датафрейм, который выглядит примерно так: In [45]: df Out[45]: Item_Id Location_Id date price 0 A 5372 1 0.5 1 A 5372 2 NaN 2 A 5372 3 1.0 3 A 6065 1 1.0 4 A 6065 2 1.0 5 A 6065 3 3.0 6 A 7000 1 NaN 7 A 7000 2 NaN 8 A 7000 3 NaN 9 B 5372…
13 дек '14 в 20:11
3 ответа

Реструктуризация данных с использованием R

У меня есть набор данных (dat), который выглядит следующим образом: Person IPaddress 36598035 222.999.22.99 36598035 222.999.22.99 36598035 222.999.22.99 36598035 222.999.22.99 36598035 222.999.22.99 36598035 444.666.44.66 37811171 111.88.111.88 378…
14 окт '14 в 15:03
2 ответа

Расчет возраста одного животного путем вычитания лет в R

Я рассчитываю рассчитать относительный возраст животных. Мне нужно последовательно вычитать каждый год из следующего для каждого животного в моем наборе данных. Поскольку животное может иметь несколько репродуктивных событий в год, мне нужно, чтобы …
26 янв '18 в 20:14
0 ответов

Вычислить z-счет двумя группами

У меня есть набор данных повторных измерений, над которым я работаю. Данные выглядят так: ID=c('X1', 'X1', 'X1', 'X1', 'X2', 'X2', 'X2', 'X3', 'X3', 'X3', 'X3', 'X4', 'X4', 'X4', 'X4', 'X5', 'X5', 'X5', 'X6', 'X6', 'X6', 'X6') Diag=c('Con', 'Con', '…
30 июл '15 в 06:54
1 ответ

Разделить - применить - объединить с функцией dist_google() (пакет stplanr)

У меня есть следующий кадр данных длинных / латовых точек (points): GPSLatitude GPSLongitude 1 40.66126 22.89565 2 40.66127 22.89565 3 40.66128 22.89565 4 40.66130 22.89566 5 40.66131 22.89567 6 40.66132 22.89569 7 40.66134 22.89573 8 40.66136 22.89…
1 ответ

Как написать конструкцию кода как функцию

Я новичок в программировании и Python и хотел бы написать следующий фрагмент кода в качестве функции, используя конструкцию 'def' 'return': df.loc[df['DATE_INT'].shift(-1) - df['DATE_INT'] == 1, 'CONSECUTIVE_DAY'] = True df.loc[(df['DATE_INT'].shift…
2 ответа

Избегать использования для цикла для Cumsum

Сначала создадим несколько примеров данных: doy <- rep(1:365,times=2) year <- rep(2000:2001,each=365) set.seed(1) value <-runif(min=0,max=10,365*2) doy.range <- c(40,50,60,80) thres <- 200 df <- data.frame(cbind(doy,year,value)) Я …
12 дек '17 в 12:17