Описание тега imputation
Missing data imputation is the process of replacing missing data with substituted, 'best guess', values. Because missing data can create problems for analyzing data and can lead to missing-data bias, imputation is seen as a way to avoid the problems associated with listwise deletion (ignoring all observations with any missing values).
0
ответов
Применить набор отсутствующих функций к набору данных в R
Недавно я наткнулся на пакет validate в R, который очень полезен, когда вы хотите проверить полный набор данных с предопределенными правилами, например, например: v <- validator( Species.na = !is.na(Species), Species.range = Species %in% c("setos…
19 май '16 в 05:12
0
ответов
Уменьшено количество строк при использовании пакета MICE для вменения
У меня есть многомерный временной ряд. Я использую пакет MICE для заполнения НС. Это приводит к уменьшению количества строк, которые я не могу себе позволить, потому что это данные временных рядов. К сожалению, я не могу воспроизвести данные здесь. …
10 дек '18 в 10:07
0
ответов
Использует ли прогностическое среднее совпадение (pmm) в пакете MICE только строки без каких-либо пропущенных данных для оценки его коэффициентов?
У меня есть дата-фрейм, который содержит данные о количестве различных растений в течение 5 последовательных лет (1 значение в год; от T2 до T6) для разных участков (15 участков) и обработок (просмотр и просмотр без просмотра). Т2-Т6 находятся в сто…
02 авг '17 в 14:16
0
ответов
Как узнать, в какое время скорость равна определенному значению?
У меня есть следующий набор данных: require(xts) days<-seq(as.Date("2016-05-01", format="%Y-%m-%d"), as.Date("2016-07-31", format="%Y-%m-%d" ), by= 1) df.days<-xts(x = data.frame(Empty=rep(NA, length(days))), order.by=days) df.norm <- rnorm…
07 ноя '16 в 12:35
2
ответа
Самый быстрый способ вменять средства столбца с большими данными
У меня есть большой числовой набор данных (~700 строк, 350 000 столбцов, считываемый как таблица данных в R), содержащий некоторые NA, которые я хотел бы заменить на столбцы как можно быстрее. Я нашел предыдущий пост, который заменяет NA на 0, но ко…
16 ноя '16 в 17:57
2
ответа
Вменение в больших данных
Мне нужно вменять недостающие значения. Мой набор данных содержит около 800 000 строк и 92 переменных. Я пробовал kNNImpute в пакете вменения в r, но похоже, что набор данных слишком велик. Любые другие пакеты / метод в R? Я бы предпочел не использо…
20 июн '13 в 13:11
2
ответа
Scikit-Learn Imputer с несколькими значениями
Есть ли способ для Imputer Scikit-learn найти и заменить несколько значений, которые считаются "пропущенными значениями"? Например, я хотел бы сделать что-то вроде imp = Imputer(missing_values=(7,8,9)) Но согласно документации, параметр missing_valu…
11 июн '18 в 21:33
1
ответ
Предсказать после множественного вменения в R
Я использовал пакет мышей в R, чтобы выполнить многократное вменение для моих данных: ### multiple inputation by chained equations imp.data <- mice(data, maxit = 5, m = 5, seed = 92385, print = F) Я хочу запустить модель логистической регрессии п…
15 ноя '17 в 18:25
0
ответов
Подмножество объекта mids перед использованием функции pool.scalar
Мои данные продольные, и у меня есть 2 подгруппы (в зависимости от статуса исхода). Я выполнил многократное вменение, используя пакет MICE, чтобы решить мои проблемы с отсутствующими данными. Впоследствии я использовал pool.scalar функция для оценки…
27 мар '18 в 11:16
1
ответ
Получить p-значения из результатов svyglm при использовании нескольких вменений в R
Я хотел бы получить р-значения из результатов svyglm модель при использовании нескольких вменений. Воспроизводимый пример приведен ниже. Создать наборы данных library(tibble) library(survey) library(mitools) # Data set 1 # Note that I am excluding t…
02 мар '18 в 23:09
4
ответа
Замена NA в каждом столбце матрицы на медиану этого столбца
Я пытаюсь заменить NA в каждом столбце матрицы медианой этого столбца, однако, когда я пытаюсь использовать lapply или же sapply Я получаю ошибку; код работает, когда я использую цикл for и когда я изменяю один столбец за раз, что я делаю неправильн…
18 янв '16 в 23:08
1
ответ
Бинарная логистическая регрессия с многократными вменяемыми данными
Я пытался работать с опциями, доступными в R (то есть MICE), чтобы выполнить бинарный логистический регрессионный анализ (с взаимодействием между непрерывными и категориальными предикторами). Тем не менее, я изо всех сил пытаюсь провести этот просто…
26 окт '17 в 23:07
1
ответ
Как я могу использовать rowSums() после множественного вменения с пакетом MICE в R
У меня короткий вопрос: Я вменял данные элемента, используя множественное вменение с пакетом MICE.После вменения я хотел бы суммировать пункты к общему количеству очков.Тем не менее, мои данные сейчас находятся в среднем объекте, и я не могу понять,…
19 апр '17 в 13:42
0
ответов
Расчет прогнозируемых средних (или прогнозируемых вероятностей) и SE после многократного вменения в R
Я хочу вычислить прогнозируемые значения и стандартные ошибки, но я не могу просто использовать предикат (), так как я использую 15 множественно вмененных наборов данных (сгенерирован пакет Amelia). Я запускаю регрессионные модели для каждого набора…
13 июл '17 в 13:36
1
ответ
R: Построение формул из строк в with.mids()
Я хочу иметь возможность запустить регрессию на mids объект, возвращенный mice()на основе формулы, построенной из строки. Для обычной регрессии (без вменения) это легко: library(mice) for (x in c('age','hyp','chl')) { regx <- lm(data=nhanes2,past…
22 дек '15 в 15:18
0
ответов
Можно ли получить модель взаимодействия ТОЛЬКО в R с вмененными данными?
Я хотел бы указать модель, которая включает в себя только термин взаимодействия (между двумя категориальными переменными) в регрессии с использованием R. Данные были вменены с использованием MICE. Модель выглядит примерно так: fit=with(data=imp, lm(…
04 май '18 в 16:41
3
ответа
Python - использование SkLearn Imputer
У меня есть следующий вопрос: у меня есть пандас dataframe, в котором пропущенные значения отмечены строкой na, Я хочу запустить Imputer на нем, чтобы заменить отсутствующие значения на среднее значение в столбце. Согласно документации sklearn, пара…
01 июл '16 в 16:42
2
ответа
Вменять недостающие значения
Я хочу вменять некоторые данные. Я использую данные мха из пакета mvoutlier. Цель состоит в том, чтобы рассчитать значения < 0,004 из столбца Bi. Поскольку даты мха являются композиционными данными, я использую методы из пакета robCompositions. Когд…
09 мар '14 в 00:07
1
ответ
Отсутствие данных в PySpark для заполнения вперед не работает
У меня есть простой набор данных, как показано ниже. | id| name| country| languages| |1 | Bob| USA| Spanish| |2 | Angelina| France| null| |3 | Carl| Brazil| null| |4 | John| Australia| English| |5 | Anne| Nepal| null| Я пытаюсь вменять нулевые значе…
05 апр '18 в 10:59
1
ответ
Как НАЙТИ пропущенные наблюдения в пределах временного ряда и заполнить NA
У меня есть 10-летний временной ряд, содержащий ежедневные наблюдения. Я обнаружил, что некоторые строки (целые строки, а не только наблюдения) из этой серии отсутствуют, что проблематично для моего варианта использования. Все даты приведены по поря…
09 дек '18 в 23:34