Описание тега outliers

Описание тега Вопросы с тегом

Выброс - это наблюдение, которое кажется необычным или недостаточно хорошо описанным по сравнению с простой характеристикой набора данных.

2 ответа

Как провести тестирование каждой переменной и изменить ее?

Я хочу проверить значение выброса каждой переменной в R и изменить значение выброса переменной на конкретное значение. Многие люди написали в stackru, чтобы порекомендовать outlierTest функция в пакете автомобиля. Однако функция outlierTest извлекае…

r outliers r-car

14 июл '17 в 04:54

1 ответ

Панды: замена выбросов (3 сигма) во всех числовых столбцах кадра данных на NaN

У меня есть фрейм данных с числовыми и строковыми столбцами. import numpy as np import pandas as pd from scipy.stats import zscore data = {'c1' : [1., 2., 3., 4.], 'c2' : [4., 3., 2., 1.], 'c3' : [5., 6., 7000., 8.], 'c4' : [8., 7., 6., 10000.], 'c5…

python pandas replace nan outliers

07 окт '17 в 03:04

2 ответа

R: Winsorizing (надежный HD) не совместим с NA?

Я хочу использовать функцию winsorize, предоставляемую в пакете "robustHD", но она не работает с NA, как видно из примера ## generate data set.seed(1234) # for reproducibility x <- rnorm(10) # standard normal x[1] <- x[1] * 10 # introduce outl…

r na outliers

22 июл '14 в 11:53

1 ответ

Готовит дистанционный участок с R

Кто-нибудь знает, как получить график расстояния одного повара, который вы получаете из этого кода: treatment <- factor(rep(c(1, 2), c(43, 41)), levels = c(1, 2), labels = c("placebo","treated")) improved <- factor(rep(c(1, 2, 3, 1, 2, 3), c(2…

r statistics outliers

27 май '11 в 17:24

1 ответ

Избавление от посторонних строк в нескольких столбцах панд данных

У меня есть фрейм данных панд со многими столбцами (>100). Я стандартизировал все значения столбцов, поэтому каждый столбец центрируется на 0 (они имеют среднее значение 0 и стандартное отклонение 1). Я хочу избавиться от всех строк, которые ниже -2…

python pandas outliers

27 июл '18 в 09:33

1 ответ

Анализ ошибок занимает слишком много времени

Я делаю анализ выбросов с помощью forward.search в faoutlier пакет в R, но это занимает слишком много времени без какого-либо результата. Я просто хотел проверить, правильно ли я делаю, и как я могу сделать процесс быстрее (например, установив парам…

r outliers

15 ноя '13 в 15:38

1 ответ

Как я могу получить инстанцию с кластеризацией k-средних в WEKA?

Я использовал класс SimpleKmeans в WEKA, поэтому я также делаю кластеризацию экземпляра. Но у меня проблема при получении инстансов. Я предположил, что у каждого кластера в этом классе есть центр (или центроид) и радиус, поэтому я мог найти выбросы,…

k-means weka outliers

02 авг '13 в 22:19

2 ответа

R - как убрать верхний х% вектора

Мне нужно выбросить выбросы моей переменной. Я хочу уменьшить верхние 10 процентов моей переменной. Тем не менее, я понятия не имею, как узнать, какие мои верхние 10 %. Если я сделаю случайное сокращение в 30, я получу верхние 3,45 %. dat$T102_01[da…

r percentage outliers

28 янв '17 в 09:34

1 ответ

Использование для цикла в R, чтобы удалить выбросы в различных ведрах

У меня в наборе данных примерно 114000 индивидуальных идентификаторов. Каждый отдельный идентификатор имеет комбинацию чисел из трех разных переменных, и каждому идентификатору соответствует значение в долларах. Есть приблизительно 4000 различных ко…

r for-loop outliers

14 ноя '14 в 22:04

0 ответов

Как удалить выбросы, используя rmOutliers в списке xts, разделенных по дням?

Я работаю над внутридневными данными котировок, в которых в качестве столбцов указаны DATETIME, BID и OFR. Мне нужно удалить выбросы, используя код rmOutliers высокочастотного пакета, который применяется к каждому дню. Я пытаюсь запустить следующие …

lapply outliers

07 янв '19 в 12:49

1 ответ

Удаление результатов теста Bonferroni Outlier в цикле

Я смоделировал свои данные с помощью линейной регрессии. Я хочу несколько раз запустить тест на выброс Бонферрони и удалить соответствующие записи из моих данных. Моя проблема: я не могу извлечь идентификатор из outlierResult. Вот воспроизводимый ко…

r linear-regression data-cleaning outliers

09 мар '16 в 10:06

0 ответов

Удалите выбросы во многих столбцах, используя среднее и стандартное отклонение в Python

Мой CSV-файл содержит фрейм данных с более чем 400 столбцами и указателем даты и времени. Я хочу удалить выбросы в каждом столбце, используя среднее значение и стандартное отклонение (SD). Удаляемые строки - это те, которые содержат значения, которы…

python dataframe outliers

07 дек '18 в 18:34

1 ответ

Удаление экстремальных значений в скользящей средней (MATLAB)

У меня есть матрица измерений: A=[x1,y1;x2,y2;x3,y3] и мое устройство имело некоторые помехи, поэтому я хочу удалить измерения (строки), которые в 10 раз превышают среднее значение между соседними точками (средние значения y). пример: если A=[1,1; 2…

matlab matrix outliers

18 авг '14 в 12:51

1 ответ

Удаление выбросов в переменной с несколькими строками содержит NAN (мне нужно сохранить NAN, и положение NAN также имеет значение)

Мне нужно удалить выбросы из переменной, которая содержит несколько NAN. Это выглядит так: X-velocity 1 0.0345 2 0.0222 3 0.0034 4 0.5604 5 0.4326 6 NaN 7 0.0333 8 0.3635 9 0.3345 10 0.3468 11 0.4573 12 0.7985 13 0.9359 14 NAN 15 0.4635 16 0.6857 17…

python outliers

05 ноя '18 в 18:49

1 ответ

Как убрать выбросы?

У меня есть матрица, первый столбец которой X, второй Y и третий Z (облако точек с Земли). Между ними находятся выбросы, то есть точки, которые находятся очень вниз или очень снаружи (из-за систематических ошибок). Я создаю матрицу расстояний и вычи…

matlab matrix distance outliers

01 дек '13 в 15:45

1 ответ

Боксы с не в масштабе оси Y

У меня есть некоторые данные, которые я хочу построить на графике. Выбросы (например, 20, 30) слишком далеки от большинства значений (например, 0,0002, 0,0003), и, как следствие, я могу видеть выбросы только тогда, когда строю график с помощью matpl…

python matplotlib plot boxplot outliers

22 авг '12 в 16:23

0 ответов

Обнаружение выбросов или шума с помощью березы

У dbscan (как и в python, sklearn) есть естественный способ обнаружения выбросов. Шумовые точки имеют кластерный идентификатор -1. Точно так же есть способ найти шум, используя Берёза? Мой код показан ниже. (Python 3.5.2) import numpy as np X = np.l…

python scikit-learn cluster-computing outliers

07 мар '17 в 20:19

2 ответа

Добавление идентификатора к выбросам в ggplot barplot в R

Я создал сложенный барплот ggplot(data %>% count(x, y), aes(x, n, fill = factor(y))) + geom_bar(stat="identity")+ theme_light()+ theme(plot.title = element_text(hjust=0.5)) есть (возможные) выбросы на 50,54 и 60. Как я могу добавить их ID в графи…

r ggplot2 bar-chart outliers

22 апр '18 в 17:45

2 ответа

Пробуждение для вычисления среднего значения, игнорирующего выбросы - для сегментированного файла

У меня есть файл данных (data.txt), который выглядит так, 0.01667 20.53 0.01667 6.35 0.01667 6.94 0.01667 7.07 0.01667 8.06 0.01667 8.10 0.01667 8.25 0.01667 8.71 0.01667 9.31 0.02500 20.19 0.02500 6.35 0.02500 6.92 0.02500 7.07 0.02500 8.08 0.02500…

bash awk average outliers

19 сен '14 в 07:37

1 ответ

Сохранение результатов из функции getOutlier в цикле for

Вернемся к вопросу, который поставил меня в тупик. Это немного похоже на этот пост: Как я могу увидеть выброс нескольких переменных в одном блокпосте, используя R?, но я пытаюсь перебрать больше, чем просто столбец. Мой, надеюсь, несколько воспроизв…

r for-loop outliers

30 июн '18 в 02:57