Описание тега outliers

Выброс - это наблюдение, которое кажется необычным или недостаточно хорошо описанным по сравнению с простой характеристикой набора данных.
2 ответа

Как провести тестирование каждой переменной и изменить ее?

Я хочу проверить значение выброса каждой переменной в R и изменить значение выброса переменной на конкретное значение. Многие люди написали в stackru, чтобы порекомендовать outlierTest функция в пакете автомобиля. Однако функция outlierTest извлекае…
14 июл '17 в 04:54
1 ответ

Панды: замена выбросов (3 сигма) во всех числовых столбцах кадра данных на NaN

У меня есть фрейм данных с числовыми и строковыми столбцами. import numpy as np import pandas as pd from scipy.stats import zscore data = {'c1' : [1., 2., 3., 4.], 'c2' : [4., 3., 2., 1.], 'c3' : [5., 6., 7000., 8.], 'c4' : [8., 7., 6., 10000.], 'c5…
07 окт '17 в 03:04
2 ответа

R: Winsorizing (надежный HD) не совместим с NA?

Я хочу использовать функцию winsorize, предоставляемую в пакете "robustHD", но она не работает с NA, как видно из примера ## generate data set.seed(1234) # for reproducibility x <- rnorm(10) # standard normal x[1] <- x[1] * 10 # introduce outl…
22 июл '14 в 11:53
1 ответ

Готовит дистанционный участок с R

Кто-нибудь знает, как получить график расстояния одного повара, который вы получаете из этого кода: treatment <- factor(rep(c(1, 2), c(43, 41)), levels = c(1, 2), labels = c("placebo","treated")) improved <- factor(rep(c(1, 2, 3, 1, 2, 3), c(2…
27 май '11 в 17:24
1 ответ

Избавление от посторонних строк в нескольких столбцах панд данных

У меня есть фрейм данных панд со многими столбцами (>100). Я стандартизировал все значения столбцов, поэтому каждый столбец центрируется на 0 (они имеют среднее значение 0 и стандартное отклонение 1). Я хочу избавиться от всех строк, которые ниже -2…
27 июл '18 в 09:33
1 ответ

Анализ ошибок занимает слишком много времени

Я делаю анализ выбросов с помощью forward.search в faoutlier пакет в R, но это занимает слишком много времени без какого-либо результата. Я просто хотел проверить, правильно ли я делаю, и как я могу сделать процесс быстрее (например, установив парам…
15 ноя '13 в 15:38
1 ответ

Как я могу получить инстанцию ​​с кластеризацией k-средних в WEKA?

Я использовал класс SimpleKmeans в WEKA, поэтому я также делаю кластеризацию экземпляра. Но у меня проблема при получении инстансов. Я предположил, что у каждого кластера в этом классе есть центр (или центроид) и радиус, поэтому я мог найти выбросы,…
02 авг '13 в 22:19
2 ответа

R - как убрать верхний х% вектора

Мне нужно выбросить выбросы моей переменной. Я хочу уменьшить верхние 10 процентов моей переменной. Тем не менее, я понятия не имею, как узнать, какие мои верхние 10 %. Если я сделаю случайное сокращение в 30, я получу верхние 3,45 %. dat$T102_01[da…
28 янв '17 в 09:34
1 ответ

Использование для цикла в R, чтобы удалить выбросы в различных ведрах

У меня в наборе данных примерно 114000 индивидуальных идентификаторов. Каждый отдельный идентификатор имеет комбинацию чисел из трех разных переменных, и каждому идентификатору соответствует значение в долларах. Есть приблизительно 4000 различных ко…
14 ноя '14 в 22:04
0 ответов

Как удалить выбросы, используя rmOutliers в списке xts, разделенных по дням?

Я работаю над внутридневными данными котировок, в которых в качестве столбцов указаны DATETIME, BID и OFR. Мне нужно удалить выбросы, используя код rmOutliers высокочастотного пакета, который применяется к каждому дню. Я пытаюсь запустить следующие …
07 янв '19 в 12:49
1 ответ

Удаление результатов теста Bonferroni Outlier в цикле

Я смоделировал свои данные с помощью линейной регрессии. Я хочу несколько раз запустить тест на выброс Бонферрони и удалить соответствующие записи из моих данных. Моя проблема: я не могу извлечь идентификатор из outlierResult. Вот воспроизводимый ко…
09 мар '16 в 10:06
0 ответов

Удалите выбросы во многих столбцах, используя среднее и стандартное отклонение в Python

Мой CSV-файл содержит фрейм данных с более чем 400 столбцами и указателем даты и времени. Я хочу удалить выбросы в каждом столбце, используя среднее значение и стандартное отклонение (SD). Удаляемые строки - это те, которые содержат значения, которы…
07 дек '18 в 18:34
1 ответ

Удаление экстремальных значений в скользящей средней (MATLAB)

У меня есть матрица измерений: A=[x1,y1;x2,y2;x3,y3] и мое устройство имело некоторые помехи, поэтому я хочу удалить измерения (строки), которые в 10 раз превышают среднее значение между соседними точками (средние значения y). пример: если A=[1,1; 2…
18 авг '14 в 12:51
1 ответ

Удаление выбросов в переменной с несколькими строками содержит NAN (мне нужно сохранить NAN, и положение NAN также имеет значение)

Мне нужно удалить выбросы из переменной, которая содержит несколько NAN. Это выглядит так: X-velocity 1 0.0345 2 0.0222 3 0.0034 4 0.5604 5 0.4326 6 NaN 7 0.0333 8 0.3635 9 0.3345 10 0.3468 11 0.4573 12 0.7985 13 0.9359 14 NAN 15 0.4635 16 0.6857 17…
05 ноя '18 в 18:49
1 ответ

Как убрать выбросы?

У меня есть матрица, первый столбец которой X, второй Y и третий Z (облако точек с Земли). Между ними находятся выбросы, то есть точки, которые находятся очень вниз или очень снаружи (из-за систематических ошибок). Я создаю матрицу расстояний и вычи…
01 дек '13 в 15:45
1 ответ

Боксы с не в масштабе оси Y

У меня есть некоторые данные, которые я хочу построить на графике. Выбросы (например, 20, 30) слишком далеки от большинства значений (например, 0,0002, 0,0003), и, как следствие, я могу видеть выбросы только тогда, когда строю график с помощью matpl…
22 авг '12 в 16:23
0 ответов

Обнаружение выбросов или шума с помощью березы

У dbscan (как и в python, sklearn) есть естественный способ обнаружения выбросов. Шумовые точки имеют кластерный идентификатор -1. Точно так же есть способ найти шум, используя Берёза? Мой код показан ниже. (Python 3.5.2) import numpy as np X = np.l…
2 ответа

Добавление идентификатора к выбросам в ggplot barplot в R

Я создал сложенный барплот ggplot(data %>% count(x, y), aes(x, n, fill = factor(y))) + geom_bar(stat="identity")+ theme_light()+ theme(plot.title = element_text(hjust=0.5)) есть (возможные) выбросы на 50,54 и 60. Как я могу добавить их ID в графи…
22 апр '18 в 17:45
2 ответа

Пробуждение для вычисления среднего значения, игнорирующего выбросы - для сегментированного файла

У меня есть файл данных (data.txt), который выглядит так, 0.01667 20.53 0.01667 6.35 0.01667 6.94 0.01667 7.07 0.01667 8.06 0.01667 8.10 0.01667 8.25 0.01667 8.71 0.01667 9.31 0.02500 20.19 0.02500 6.35 0.02500 6.92 0.02500 7.07 0.02500 8.08 0.02500…
19 сен '14 в 07:37
1 ответ

Сохранение результатов из функции getOutlier в цикле for

Вернемся к вопросу, который поставил меня в тупик. Это немного похоже на этот пост: Как я могу увидеть выброс нескольких переменных в одном блокпосте, используя R?, но я пытаюсь перебрать больше, чем просто столбец. Мой, надеюсь, несколько воспроизв…
30 июн '18 в 02:57