Описание тега multidplyr

NoneMultidplyr - это пакет R от Хэдли Уикхема, который обеспечивает параллельную обработку секционированных кадров data.frames. Этот тег не следует использовать для вопросов, относящихся только к dplyr.
1 ответ

Замена на параллельный плир с doMC

Рассмотрим стандартную сгруппированную операцию над data.frame: library(plyr) library(doMC) library(MASS) # for example nc <- 12 registerDoMC(nc) d <- data.frame(x = c("data", "more data"), g = c("group1", "group2")) y <- "some global objec…
01 дек '17 в 16:42
1 ответ

multidplyr: назначить функции для кластера

(см. рабочий раствор ниже) Я хочу использовать multidplyr для распараллеливания функции: calculs.R f <- function(x){ return(x+1) } main.R library(dplyr) library(multidplyr) source("calculs.R") d <- data.frame(a=1:1000,b=sample(1:2,1000),replac…
03 окт '17 в 21:27
0 ответов

Не удается преобразовать окружение в ошибку функции при использовании multidplyr

Это пример использования multidplyr позвоните в мой код, который я запускаю на кластере моего института: #create data set.seed(1) library(dplyr) df <- do.call(rbind,lapply(1:100,function(i){ id.df <- data.frame(id=paste0("ID",i),value=runif(10…
0 ответов

Multiplyr и пророк для параллельного группового предсказания: ошибка в checkForRemoteErrors(lapply(cl, recvResult))

Я готов делать параллельные предсказания, используя multidplyr и пророка. Рассмотрим следующие данные library(tidyr) library(dplyr) library(multidplyr) library(prophet) ds = as.Date(c('2016-11-01', '2016-11-02', '2016-11-03', '2016-11-04', '2016-11-…
22 июл '17 в 20:43
1 ответ

Выполнить обнаружение точки останова (лм) параллельно в R

Я делаю около 80000 вычислений для определения точек останова временных рядов в R. У меня есть все эти чрезвычайно разные временные ряды, где я не могу применять модели ARIMA, поэтому я рассчитываю линейную модель для временных рядов, затем извлекаю…
07 окт '18 в 18:36
2 ответа

Группировка данных в 12 группах с одинаковыми значениями столбцов

У меня большой набор данных с примерно 15 столбцами и более 3 миллионами строк. Поскольку набор данных очень большой, я хотел бы использовать multidplyrв теме. Из-за данных было бы невозможно просто разделить мой фрейм данных на 12 частей. Допустим,…
18 сен '17 в 13:25
1 ответ

multidplyr и group_by () и filter()

У меня есть следующий фрейм данных, и я собираюсь найти все идентификаторы, которые имеют разное ИСПОЛЬЗОВАНИЕ, но одинаковый ТИП. ID <- rep(1:4, each=3) USAGE <- c("private","private","private","private", "taxi","private","taxi","taxi","taxi"…
30 июл '17 в 11:35
0 ответов

`print` или`cat` в мультидплире

Вопрос Интересно, есть ли способ print или же cat при использовании multidplyr, Так как у меня было бы много строк, и я буду применять map на нем было бы неплохо узнать, какая строка в данный момент обрабатывается. пример library(dplyr) library(purr…
13 сен '18 в 20:16
1 ответ

Вызов функции с аргументами в dplyr::do с использованием multidplyr

Я пытаюсь использовать multidplyr ускорить получение residuals из regression поместиться. Я создал function это соответствует regression модель, чтобы получить residuals, который в дополнение к данным, получает еще два аргумента. Вот function: func …
08 ноя '17 в 19:19
2 ответа

Свернуть в зависимости от состояния

Этот вопрос похож на вопрос, уже опубликованный несколько дней назад, Свернуть строки от 0 до 0 Новый поворот здесь, который отличается от предыдущего вопроса, заключается в следующем: как мы свернем строки по Id только для тех строк, где разное вре…
04 фев '19 в 20:03
1 ответ

Ошибка multidplyr с pmap_dfr: Ошибка: Элемент 5 не является вектором (среда)

[Об этом также сообщается на странице multidplyr github ] Я пытаюсь использовать multidplyr_0.0.0.9000 с dplyr_0.7.4.9000 и pmap_dfr из purrr_0.2.4.9000. Следующий код (без использования multidplyr) работает нормально: grid1 = as_tibble(expand.grid(…
02 ноя '17 в 00:21
1 ответ

R: Что такое быстрый способ удаления доминирующих строк из таблицы?

Я ищу быстрый способ удалить все доминирующие строки из таблицы (предпочтительно с использованием параллельной обработки, чтобы использовать преимущества нескольких ядер). Под "доминирующей строкой" я подразумеваю строку, которая меньше или равна др…
19 июн '18 в 21:04
1 ответ

Как передать вектор имен столбцов в функцию разбиения multidplyr в R

Я столкнулся с проблемой с функцией разбиения multidplyr. Моя цель - найти сводную статистику по группам имен столбцов. например: rcols <- c("cyl","am","vs") Теперь я хотел найти сводную статистику, используя вышеуказанный объект rcols . Я могу с…
09 дек '17 в 06:10
2 ответа

R multidplyr: как назначать пакеты кластерам

Я использую пакет multidplyr, где вы можете разделить данные на несколько ядер внутри канала dplyr. Вы можете назначать значения и функции ядрам с cluster_assign_value(), но вопрос в том, как назначить пакеты для кластеров? Потому что он должен имет…
1 ответ

multidplyr: пробная пользовательская функция

Я пытаюсь научиться запускать пользовательские функции через multidplyr::do() на кластере. Рассмотрим этот простой автономный пример. Например, я пытаюсь применить свою пользовательскую функцию myWxTest для каждого common_dest (направления с более ч…
24 апр '17 в 22:26
0 ответов

Контрольная точка не может найти мультидплыр в R-markdown

Я пытаюсь создать документ R-markdown, в котором я буду использовать multidplyr. Для обеспечения воспроизводимости я решил использовать библиотеку контрольных точек. MWE: --- title: "A great title" author: "A great author" date: "February 19, 2019" …
19 фев '19 в 17:11
2 ответа

Векторизация с помощью multidplyr не дает правильного вывода

Я пытался распараллелить ape::dist_topo(), функция для вычисления расстояний между некорневыми деревьями. Обычно функция работает следующим образом (представьте: 4 случайных дерева по 5 листов в каждом): library(tidyverse) # devtools::install_github…
08 июн '18 в 15:00
1 ответ

Перестройка и форматирование столбцов фрейма данных

dfin <- ID SEQ GRP C1 C2 C3 T1 T2 T3 1 1 1 0 5 8 0 1 2 1 2 1 5 10 15 5 6 7 2 1 2 20 25 30 0 1 2 C1 это концентрация (CONC) в T1 (TIME) и так далее. Это то, что я хочу в качестве вывода: dfout <- ID SEQ GRP CONC TIME 1 1 1 0 0 1 1 1 5 1 1 1 1 8…
03 авг '17 в 00:39
1 ответ

Dplyr и RJDBC: не удалось найти унаследованный метод для функции 'dbGetQuery' для подписи '"JDBCConnection", "tbl_df"

Я использую пакет RJDBC для подключения к БД Oracle. Мне нужно получить огромное количество данных, и я хотел бы распределить запрос по различным ядрам. Я знаю, что в таблице пять миллионов записей. Таким образом я пишу SQL-запрос как: SqlCMD = "SEL…
22 мар '18 в 14:53
0 ответов

Обеспечение зависимости функции для распараллеливания через multidplyr на всех узлах кластера

Я написал функцию, которая помогает мне в подготовке всех узлов кластера, охватываемых multidplyr::get_default_cluster() для выполнения параллельного задания. Это работает, но теперь я пропускаю следующий шаг: любые "готовые" функции в multidplyr (и…