Описание тега multidplyr
NoneMultidplyr - это пакет R от Хэдли Уикхема, который обеспечивает параллельную обработку секционированных кадров data.frames. Этот тег не следует использовать для вопросов, относящихся только к dplyr.
1
ответ
Замена на параллельный плир с doMC
Рассмотрим стандартную сгруппированную операцию над data.frame: library(plyr) library(doMC) library(MASS) # for example nc <- 12 registerDoMC(nc) d <- data.frame(x = c("data", "more data"), g = c("group1", "group2")) y <- "some global objec…
01 дек '17 в 16:42
1
ответ
multidplyr: назначить функции для кластера
(см. рабочий раствор ниже) Я хочу использовать multidplyr для распараллеливания функции: calculs.R f <- function(x){ return(x+1) } main.R library(dplyr) library(multidplyr) source("calculs.R") d <- data.frame(a=1:1000,b=sample(1:2,1000),replac…
03 окт '17 в 21:27
0
ответов
Не удается преобразовать окружение в ошибку функции при использовании multidplyr
Это пример использования multidplyr позвоните в мой код, который я запускаю на кластере моего института: #create data set.seed(1) library(dplyr) df <- do.call(rbind,lapply(1:100,function(i){ id.df <- data.frame(id=paste0("ID",i),value=runif(10…
19 окт '18 в 22:15
0
ответов
Multiplyr и пророк для параллельного группового предсказания: ошибка в checkForRemoteErrors(lapply(cl, recvResult))
Я готов делать параллельные предсказания, используя multidplyr и пророка. Рассмотрим следующие данные library(tidyr) library(dplyr) library(multidplyr) library(prophet) ds = as.Date(c('2016-11-01', '2016-11-02', '2016-11-03', '2016-11-04', '2016-11-…
22 июл '17 в 20:43
1
ответ
Выполнить обнаружение точки останова (лм) параллельно в R
Я делаю около 80000 вычислений для определения точек останова временных рядов в R. У меня есть все эти чрезвычайно разные временные ряды, где я не могу применять модели ARIMA, поэтому я рассчитываю линейную модель для временных рядов, затем извлекаю…
07 окт '18 в 18:36
2
ответа
Группировка данных в 12 группах с одинаковыми значениями столбцов
У меня большой набор данных с примерно 15 столбцами и более 3 миллионами строк. Поскольку набор данных очень большой, я хотел бы использовать multidplyrв теме. Из-за данных было бы невозможно просто разделить мой фрейм данных на 12 частей. Допустим,…
18 сен '17 в 13:25
1
ответ
multidplyr и group_by () и filter()
У меня есть следующий фрейм данных, и я собираюсь найти все идентификаторы, которые имеют разное ИСПОЛЬЗОВАНИЕ, но одинаковый ТИП. ID <- rep(1:4, each=3) USAGE <- c("private","private","private","private", "taxi","private","taxi","taxi","taxi"…
30 июл '17 в 11:35
0
ответов
`print` или`cat` в мультидплире
Вопрос Интересно, есть ли способ print или же cat при использовании multidplyr, Так как у меня было бы много строк, и я буду применять map на нем было бы неплохо узнать, какая строка в данный момент обрабатывается. пример library(dplyr) library(purr…
13 сен '18 в 20:16
1
ответ
Вызов функции с аргументами в dplyr::do с использованием multidplyr
Я пытаюсь использовать multidplyr ускорить получение residuals из regression поместиться. Я создал function это соответствует regression модель, чтобы получить residuals, который в дополнение к данным, получает еще два аргумента. Вот function: func …
08 ноя '17 в 19:19
2
ответа
Свернуть в зависимости от состояния
Этот вопрос похож на вопрос, уже опубликованный несколько дней назад, Свернуть строки от 0 до 0 Новый поворот здесь, который отличается от предыдущего вопроса, заключается в следующем: как мы свернем строки по Id только для тех строк, где разное вре…
04 фев '19 в 20:03
1
ответ
Ошибка multidplyr с pmap_dfr: Ошибка: Элемент 5 не является вектором (среда)
[Об этом также сообщается на странице multidplyr github ] Я пытаюсь использовать multidplyr_0.0.0.9000 с dplyr_0.7.4.9000 и pmap_dfr из purrr_0.2.4.9000. Следующий код (без использования multidplyr) работает нормально: grid1 = as_tibble(expand.grid(…
02 ноя '17 в 00:21
1
ответ
R: Что такое быстрый способ удаления доминирующих строк из таблицы?
Я ищу быстрый способ удалить все доминирующие строки из таблицы (предпочтительно с использованием параллельной обработки, чтобы использовать преимущества нескольких ядер). Под "доминирующей строкой" я подразумеваю строку, которая меньше или равна др…
19 июн '18 в 21:04
1
ответ
Как передать вектор имен столбцов в функцию разбиения multidplyr в R
Я столкнулся с проблемой с функцией разбиения multidplyr. Моя цель - найти сводную статистику по группам имен столбцов. например: rcols <- c("cyl","am","vs") Теперь я хотел найти сводную статистику, используя вышеуказанный объект rcols . Я могу с…
09 дек '17 в 06:10
2
ответа
R multidplyr: как назначать пакеты кластерам
Я использую пакет multidplyr, где вы можете разделить данные на несколько ядер внутри канала dplyr. Вы можете назначать значения и функции ядрам с cluster_assign_value(), но вопрос в том, как назначить пакеты для кластеров? Потому что он должен имет…
05 окт '17 в 10:01
1
ответ
multidplyr: пробная пользовательская функция
Я пытаюсь научиться запускать пользовательские функции через multidplyr::do() на кластере. Рассмотрим этот простой автономный пример. Например, я пытаюсь применить свою пользовательскую функцию myWxTest для каждого common_dest (направления с более ч…
24 апр '17 в 22:26
0
ответов
Контрольная точка не может найти мультидплыр в R-markdown
Я пытаюсь создать документ R-markdown, в котором я буду использовать multidplyr. Для обеспечения воспроизводимости я решил использовать библиотеку контрольных точек. MWE: --- title: "A great title" author: "A great author" date: "February 19, 2019" …
19 фев '19 в 17:11
2
ответа
Векторизация с помощью multidplyr не дает правильного вывода
Я пытался распараллелить ape::dist_topo(), функция для вычисления расстояний между некорневыми деревьями. Обычно функция работает следующим образом (представьте: 4 случайных дерева по 5 листов в каждом): library(tidyverse) # devtools::install_github…
08 июн '18 в 15:00
1
ответ
Перестройка и форматирование столбцов фрейма данных
dfin <- ID SEQ GRP C1 C2 C3 T1 T2 T3 1 1 1 0 5 8 0 1 2 1 2 1 5 10 15 5 6 7 2 1 2 20 25 30 0 1 2 C1 это концентрация (CONC) в T1 (TIME) и так далее. Это то, что я хочу в качестве вывода: dfout <- ID SEQ GRP CONC TIME 1 1 1 0 0 1 1 1 5 1 1 1 1 8…
03 авг '17 в 00:39
1
ответ
Dplyr и RJDBC: не удалось найти унаследованный метод для функции 'dbGetQuery' для подписи '"JDBCConnection", "tbl_df"
Я использую пакет RJDBC для подключения к БД Oracle. Мне нужно получить огромное количество данных, и я хотел бы распределить запрос по различным ядрам. Я знаю, что в таблице пять миллионов записей. Таким образом я пишу SQL-запрос как: SqlCMD = "SEL…
22 мар '18 в 14:53
0
ответов
Обеспечение зависимости функции для распараллеливания через multidplyr на всех узлах кластера
Я написал функцию, которая помогает мне в подготовке всех узлов кластера, охватываемых multidplyr::get_default_cluster() для выполнения параллельного задания. Это работает, но теперь я пропускаю следующий шаг: любые "готовые" функции в multidplyr (и…
20 фев '19 в 12:56