Описание тега missing-data

По вопросам, касающимся проблем с отсутствующими данными, которые могут включать в себя специальные структуры данных, алгоритмы, статистические методы, методы моделирования, визуализацию, среди прочего.
4 ответа

Как создать "NA" для отсутствующих данных во временном ряду

У меня есть несколько файлов данных, которые выглядят так: X code year month day pp 1 4515 1953 6 1 0 2 4515 1953 6 2 0 3 4515 1953 6 3 0 4 4515 1953 6 4 0 5 4515 1953 6 5 3.5 Иногда отсутствуют данные, но у меня нет NA, строки просто не существуют.…
19 май '11 в 12:35
2 ответа

Как построить случайные леса в R с отсутствующими (NA) значениями?

Я хотел бы соответствовать случайной модели леса, но когда я звоню library(randomForest) cars$speed[1] <- NA # to simulate missing value model <- randomForest(speed ~., data=cars) Я получаю следующую ошибку Error in na.fail.default(list(speed …
1 ответ

Как получить показатели соответствия модели (AIC, F-статистика) в zelig для многократных вмененных данных?

В продолжение предыдущего поста мне интересно узнать, как получить обычные показатели относительного качества статистической модели в zelig для регрессии, используя многократные вмененные данные (созданные с помощью Amelia). require(Zelig) require(A…
22 май '13 в 14:34
2 ответа

В SQL, как я могу добавить строку, только если ее еще нет в таблице?

Пример: у меня есть четыре объекта, где 1 имеет три foobar (два "FOO" и один "BAR"), 2 имеет foobar "FOO" (здесь нет "BAR" foobar #1), 3 имеет "BAR" и a "Доброе утро, Джон!:)" foobar, а у 4 нет (нет "BAR" foobar здесь #2). Обратите внимание, что сто…
30 июл '18 в 07:36
1 ответ

Случайно удаленные файлы проекта xcode с помощью команд Git

Я случайно удалил все свои файлы, зафиксировав новую сборку, а затем удалив эту фиксацию. (git commit -m, git reset -hard HEAD^). Затем я попытался использовать (git merge), чтобы отменить удаление. Я заметил, что все отсутствующие файлы вернулись, …
29 авг '16 в 19:24
2 ответа

Набор данных бинарной классификации с возрастом, некоторые значения которого отсутствуют

Эта проблема классификации имеет 300000 кортежей и 20 функций. Я хочу использовать алгоритм SVM для решения этой проблемы. Функция age имеет значение от 1 до 100, но эта функция в некоторых кортежах отсутствует и пуста. Как я должен решить это.
1 ответ

Как заменить подмножество pandas dataframe на другие серии

Я думаю, что это тривиальный вопрос, но я просто не могу заставить его работать. d = { 'one': pd.Series([1,2,3,4], index=['a', 'b', 'c', 'd']), 'two': pd.Series([np.nan,6,np.nan,8], index=['a', 'b', 'c', 'd']), 'three': pd.Series([10,20,30,np.nan], …
12 фев '17 в 12:41
1 ответ

Условная замена пустых значений в панде

У меня есть датафрейм с малонаселенным столбцом. Большинство значений пустые; единственными другими значениями являются "Купить" и "Продать". Я хотел бы заменить пустые значения на "длинные", если последнее непустое значение было "Купить" или "корот…
10 сен '17 в 19:05
0 ответов

Отображение хороплета в R с отсутствующими данными

Я пытаюсь составить карту болезни в Онтарио. Границы организованы FSA (область прямой сортировки), но у меня отсутствуют данные по многим областям. Когда я сопоставляю это, это раскрашивает области, у которых нет никаких данных. Я попытался вставить…
25 июл '18 в 15:51
1 ответ

Как scipy.stats обращается с nans?

Я пытаюсь сделать некоторые статистические данные в Python. У меня есть данные с несколькими пропущенными значениями, заполненные np.nan, и я не уверен, должен ли я удалить это вручную, или scipy может справиться с этим. Итак, я попробовал оба: impo…
10 май '15 в 15:56
1 ответ

Как выбрать строки с определенным отсутствующим рисунком?

Итак, у меня есть набор данных, который содержит много пропущенных значений. Я хочу отделить данные от разных отсутствующих моделей. Я нашел пакет "мыши", который очень удобен для суммирования шаблонов пропущенных значений. Однако, когда я хочу выбр…
23 окт '15 в 03:35
2 ответа

Замените NaN или пропущенные значения на скользящее среднее или другую интерполяцию

У меня есть pandas dataframe с ежемесячными данными, для которых я хочу рассчитать скользящую среднюю за 12 месяцев. Однако данные за каждый месяц января отсутствуют (NaN), поэтому я использую pd.rolling_mean(data["variable"]), 12, center=True) но э…
11 авг '14 в 01:45
1 ответ

Обработка отсутствующих атрибутов в SVM

У меня есть набор данных 2500 записей. Каждая запись имеет 100 атрибутов. Проблема, с которой я сталкиваюсь, заключается в том, что во многих из этих записей отсутствует одно (или несколько) значений атрибутов. Поскольку таких записей много (около 8…
1 ответ

Как заменить значения нескольких типов на NA в кадре данных в R

У меня есть фрейм данных, где несколько типов значений должны быть заменены на NA, в то время как некоторые другие столбцы с этими значениями являются действительными данными для хранения. Например, >df<-data.frame( x1=c("1999-09-09","2013-01-…
30 янв '14 в 00:26
1 ответ

Вынуть тег изображения alt: отсутствует. msgstr "тег изображения без альт-идентификатора является предпочтительным и не отображается отсутствующим

Я хочу убрать отсутствующую ошибку, которую ищет тег изображения. Я не хочу заполнять теги ult, стараясь не заполнять его преднамеренно, пока я не загружу фотографию с просмотром, используя скрепку для бумаг. Я изменил URL (: отсутствует), на многие…
0 ответов

Применить набор отсутствующих функций к набору данных в R

Недавно я наткнулся на пакет validate в R, который очень полезен, когда вы хотите проверить полный набор данных с предопределенными правилами, например, например: v <- validator( Species.na = !is.na(Species), Species.range = Species %in% c("setos…
19 май '16 в 05:12
2 ответа

Работа с NaN (отсутствующими) значениями для логистической регрессии - лучшие практики?

Я работаю с набором данных о пациентах и ​​пытаюсь рассчитать показатель склонности на основе данных с использованием MATLAB. После удаления объектов со многими пропущенными значениями у меня все еще остается несколько пропущенных (NaN) значений. Я …
1 ответ

Вставить NA в объект временного ряда в r

Я хочу суммировать месяцы за все годы во временном ряду, который выглядит как Jan Feb Mar Apr Jun Jul Aug Sep Oct Nov Dec 2006 4 4 3 4 4 5 5 3 3 2007 3 3 2 2 4 3 3 2 2 5 5 2008 3 3 3 2 2 4 4 3 используя окно (объект временного ряда, начало = с (2006…
22 янв '14 в 17:44
2 ответа

Заполнение пропусков (пробелов) в таблице данных, по категориям - назад и вперед

Я работаю с большим набором данных счетов для моей клинической практики за 11 лет. В нескольких строках отсутствует лечащий врач. Однако, используя некоторые правила, я могу довольно легко их заполнить, но не знаю, как реализовать их в data.table по…
26 сен '12 в 17:46
1 ответ

Случайный лес не предсказывает нули

Я запускаю случайный лес на наборе данных, который содержит много нулей. Эти нули представляют подсчет чего-либо (или его отсутствие) и, следовательно, имеют смысл, в отличие от данных, которые могут быть классифицированы как "отсутствующие". Когда …