Описание тега ff
Пакет R, обеспечивающий эффективное хранение больших объемов данных на диске и функции быстрого доступа.
0
ответов
Не вся RAM освобождается после gc() после использования объекта ffdf в R
Я запускаю скрипт следующим образом: library(ff) library(ffbase) setwd("D:/My_package/Personal/R/reading") x<-cbind(rnorm(1:100000000),rnorm(1:100000000),1:100000000) system.time(write.csv2(x,"test.csv",row.names=FALSE)) #make ffdf object with mi…
05 фев '16 в 16:39
1
ответ
log2 преобразует объекты
Я хотел бы log2 преобразовать все числовые значения в ff объект из ffпакет. Используя мой df: library(ff) df <- 'probeset_id sample1 sample2 sample3 probe_1 1834.2 1743.4 1384 probe_2 4711 4922 4650 probe_3 4555 1387 4650.8 probe_4 2588 1325 3258…
29 сен '15 в 15:44
1
ответ
Использование функции apply с пакетом ff в R
Я пытаюсь применить данную функцию к столбцам в объекте "as.ffdf", но мне не повезло. Кто-нибудь может дать предложения ниже? n = 3711, а myProbDensity имеет размеры 95248 строк и 3711 столбцов. myDF <- as.ffdf(myProbDensity) test <- ff(vmode …
07 июл '15 в 05:39
1
ответ
Как установить ffdf по индексу?
Я хотел бы поместить объект ffdf в индекс, возвращая другой объект ffdf. Файл справки в subset.ffdf указывает, что вы можете передать объект индекса диапазона (ri) в качестве аргумента, но когда я попытался: data_subset <- subset.ffdf(data, ri(1,…
15 ноя '17 в 23:03
1
ответ
R ff пакет, создающий новый столбец, выдает ошибку "нечисловой аргумент бинарного оператора"
a <- data.frame(x=c(1,2,3), y=c(10,10,20)) a x y 1 1 10 2 2 10 3 3 20 a$z = a$x / a$y # works with data frame a x y z 1 1 10 0.10 2 2 10 0.20 3 3 20 0.15 a <- data.frame(x=c(1,2,3), y=c(10,10,20)) a_ff <- as.ffdf(a) a_ff$z = a_ff$x / a_ff$y…
21 июл '14 в 12:39
0
ответов
R Параллельная обработка Foreach с функцией ffdf mapply
У меня есть большой ffdf с именем 'Scenarios', к которому я применяю функцию из пакета NGA. Я уже использую mychunks, чтобы попытаться ускорить процесс, но это все еще медленно. Могу ли я запустить его с параллельной обработкой, например, с помощью …
03 июн '14 в 21:52
0
ответов
Замена пакета ffbase в R?
Есть ли замена ffbase для работы с большим набором данных? Является ли data.table хорошей альтернативой? Сделал поиск в Google, но не могу найти хорошего решения.
11 сен '18 в 17:26
1
ответ
Выполнение расчетов на фрейме данных из объекта ffdf
Я работаю с большим набором данных (3,5 млн строк и 40 столбцов), и мне нужно очистить некоторые значения, чтобы иметь возможность рассчитать другие параметры, которые мне необходимы, когда я начну формулировать модель вокруг данных. Проблема в том,…
21 авг '13 в 16:04
0
ответов
Используя FFDFs, линейно распределите суммы по месяцам
Это дополнительный вопрос к линейно распределенным суммам по месяцам. Во-первых, большое спасибо Сеньору О, Мишелю и Дж. Гротендику за помощь в решении первоначального вопроса. Теперь на мой вопрос. Пожалуйста, обратите внимание на следующее FFDF: r…
15 окт '13 в 15:17
1
ответ
FF в R: нет применимого метода для 'recodeLevels'
Я пытаюсь загрузить огромный (~5 ГБ) файл.csv в R, используя read.csv.ffdf. Команда идет: npi <- read.csv.ffdf(file="C:/Users/DSA/Dropbox/Team Shared Files/People/Ross/NPI_Parse/Zips/npi_full.csv", VERBOSE=TRUE, first.rows=10000,next.rows=100000,…
12 мар '14 в 16:10
2
ответа
Вычисление нескольких фиксированных эффектов на большом наборе данных
Я пытаюсь выполнить регрессию с фиксированными эффектами для двух факторных переменных в наборе данных CSV, содержащем более 4000000 строк. Эти переменные могут соответственно принимать около 140000 и 50000 различных целочисленных значений. Сначала …
12 фев '14 в 01:56
1
ответ
Пакет R - ff: найдите наиболее часто встречающийся элемент в ffdf и удалите строки, в которых он находится
Мне нужно предложение, чтобы найти наиболее часто встречающийся элемент в ffdf и после этого удалить строки, где находится. Я решил попробовать пакет ff, так как я работаю с очень большими данными и с базовым RI не хватает памяти. Вот небольшой прим…
27 май '15 в 17:50
2
ответа
Дублированная функция не выполняется для векторов даты ff
Привет я пытаюсь удалить дубликаты из вектора ff, который содержит даты, используя функцию дублирования пакета ffbase и следующий код: v1 <- c("24-Mar-94", "24-Mar-94", "27-Mar-94", "28-Jun-1986", "29-Jul-1988", "28-Jun-1986", "15-Jan-1999", "13-…
23 дек '14 в 11:09
1
ответ
Используете eof или конец ввода в ff match?
У меня есть огромный файл данных в следующем формате: section 1 data 1 end section section n # n is a large number > 10000 data n end section Маркер для конца каждого раздела - это то же самое, "конец раздела". Мне нужно часто получать раздел, а …
02 дек '18 в 19:10
1
ответ
Функция ffdfdply вылетает R и работает очень медленно
Научиться вычислять задачи в R для больших наборов данных (более 1 или 2 ГБ), я пытаюсь использовать ff пакет и ffdfdply функция. (Смотрите эту ссылку о том, как использовать ffdfdply: R language: проблемы с вычислением "group by" или разделением с …
19 ноя '12 в 14:20
0
ответов
Ограничение строки в read.table.ffdf?
Я пытаюсь импортировать очень большой набор данных (101 ГБ) из текстового файла, используя read.table.ffdf в пакете ff. Набор данных содержит>285 миллионов записей, но я могу читать только в первых 169 457 322 строках. Набор данных разделен табуляци…
01 май '16 в 23:40
0
ответов
Ошибка, связанная с памятью: пакет ff на сервере Windows 2008
Я пытаюсь сделать простейшую индексацию ff вектор в R v3.1.0, на сервере Windows 2008. Следующий основной код: x = ff(1:10) x[ff(2:3)] Возвращает ошибку: Error in ffindexget(x, i) : cannot allocate memory block of size 67108864 Tb In addition: Warni…
03 июл '14 в 15:58
1
ответ
Метод vlookup для объекта ffdf в R
У меня есть объект ffdf под названием "data" с более чем 26 миллионами строк, который выглядит следующим образом: Location DateandTime Value 1 1 01/01/2012 00:00:00 0.8 2 42 01/01/2012 00:00:00 0.4 3 14 01/01/2012 00:00:00 0.7 4 21 01/01/2012 00:00:…
26 июн '16 в 10:01
1
ответ
Эффективное преобразование "журналов времени отдельных входов / выходов" в "общую занятость здания за определенное время"
Итак, у меня есть данные в формате.csv, показывающие время, за которое конкретные пользователи заходят в здание и выходят из него в течение нескольких месяцев. Я пытаюсь использовать R для расчета занятости здания каждые 15-30 минут для анализа. Дан…
13 мар '15 в 22:35
1
ответ
Как указать colClasses при чтении очень большого файла CSV в R с использованием read.table.ffdf?
Я пытаюсь прочитать очень большой файл.csv, размером около 20 ГБ, используя функцию read.table.ffdf() в пакете "ff", но у меня возникли проблемы при указании параметра colClasses в read.csv(). Я должен указать опцию colClasses, потому что некоторые …
25 апр '14 в 21:10