Описание тега isolation-forest
0
ответов
Что делать, если я не могу оценить производительность алгоритма машинного обучения для обнаружения аномалий с помощью AUC? [закрыто]
У меня есть данные с 10 000 строками и 40 столбцами. Также для каждой строки есть метка: « аномалия » или « нормальные данные ». В данных есть 5% аномалий. Цель этого исследования - найти лучший алгоритм обнаружения аномалий. Поэтому я могу применит…
16 фев '21 в 11:35
1
ответ
Изолированный лес с множеством функций, обнаруживающих все как аномалию
У меня есть реализация изолированного леса, в которой я беру функции (все числовые); масштабируйте их от 0 до 1 from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() data = scaler.fit_transform(df) x = pd.DataFrame(data) Затем вызов…
10 фев '21 в 13:20
0
ответов
Обнаружение аномалий с помощью изолированного леса для многомерных данных
Я пытаюсь реализовать обнаружение аномалий, используя набор данных, который имеет 3 функции. Я отмасштабировал черты и пошел рисовать. Как видите, аномалии (выделены желтым цветом) идентифицированы в середине кластера; что для меня не имеет особого …
15 фев '21 в 12:50
0
ответов
неверные результаты IsolationForest
Меня вдохновил этот блокнот , и я экспериментирую IsolationForestалгоритм для контекста обнаружения аномалий в SF-версии набора данных KDDCUP99, включая 4 атрибута. Данные берутся напрямую из sklearn и после предварительной обработки (метка, кодирую…
15 мар '21 в 21:39
1
ответ
Как использовать Isolation Forest в Python
Я работаю над обнаружением выбросов в моем немаркированном наборе данных (данные не помечены как выбросы / выбросы), и я использую Isolation Forest в Python (библиотека scikit-learn). Я хочу получить оценку аномальности данных в моем наборе данных, …
08 дек '20 в 19:38
1
ответ
несоответствие между настройкой загрязнения и прогнозом количества выбросов в изолированном лесу Sklearn
Меня вдохновил этот блокнот , и я экспериментирую IsolationForest алгоритм с использованием scikit-learn==0.22.2.post1для контекста обнаружения аномалий в SF- версии набора данных KDDCUP99 , включая 4 атрибута. Данные берутся напрямую из sklearn и п…
23 мар '21 в 21:48
0
ответов
Низкая оценка изолированности леса означает, что это локальный выброс?
Означает ли низкий показатель изолированности леса, что это локальный выброс? я использовал для выявления мошенничества. но мне интересно, можно ли рассматривать эти зеленые точки как локальные выбросы или нет. Кроме того, не только для обнаружения …
12 апр '21 в 07:41
0
ответов
ValueError: количество функций модели должно соответствовать входным. Модель n_features - 30, а входная n_features - 2
Я новичок в науке о данных и машинном обучении. Итак, я пытаюсь визуализировать выброс, используя алгоритм Isolation Forest Algorithm, на который я ссылался здесь . Я использую набор данных о мошенничестве с кредитными картами из Kaggle, X = столбец…
24 апр '21 в 03:12
0
ответов
Isolation Forest - Sci Kit Learn - Почему изменение загрязнения влияет на score_samples? [закрыто]
Я думал, что загрязнение - это просто порог, который определяет, сколько выбросов принимается во внимание. Однако что странно, так это то, что при другом загрязнении также вывод score_samples означает, что оценка аномалии изменяется. Не следует ли и…
01 июн '21 в 10:54
0
ответов
как установить max_depth в реализации sklearn Isolation Forest?
Я использовал Isolation Forest и использовал его для прогнозирования на других выборках (взятых из той же популяции). Из-за большого размера выборок я не могу уместить Forest для всех данных (потому что я не могу преобразовать эти данные в фрейм дан…
04 июн '21 в 20:37
0
ответов
Отображение того, является ли какое-либо значение функции образца выбросом с помощью пакета обнаружения аномалий Isolation Forest в Python
Насколько я понимаю, результат прогнозирования выбросов этого пакета возвращает, являются ли данные выборки (которые могут состоять из значений для нескольких функций) выбросом или нет (-1 или 1). Однако в моем специальном приложении мне нужно знать…
17 июн '21 в 20:47
0
ответов
IsolationForest всегда предсказывает 1
Я работаю над проектом по обнаружению out-of-domainввод текста с помощью функции и. Ниже приведены мои работы в обобщенном виде: ОБУЧЕНИЕ В tfidf: Подгонка и преобразование набора данных в домене с помощью. Установите tfidftransformer () вместе с my…
21 июн '21 в 00:41
3
ответа
В чем разница между функцией решения и score_samples вolated_forest в SKLearn
Я прочитал документацию функции решения и score_samples здесь , но не мог понять, в чем разница между этими двумя методами и которые один я должен использовать для алгоритма обнаружения с выбросом. Любая помощь будет оценена по достоинству.
21 июн '21 в 05:06
0
ответов
Как обнаружить аномалии в нескольких разных IP-адресах? [закрыто]
Как только наблюдается аномальное поведение в общем количестве подключений, это обнаруживается как аномалия. Каждый IP-адрес назначения имеет различное поведение в зависимости от количества подключений, которые он должен получить, например, для IP-а…
23 июн '21 в 15:59
0
ответов
IsolationForest, преобразование данных
Мы с коллегой пытаемся обнаружить аномалии в большом наборе данных. Мы хотим опробовать различные алгоритмы (LOF, OC-SVM, DBSCAN и т.д.), но в настоящее время мы работаем с IsolationForest. Наш набор данных в настоящее время сформирован следующим об…
29 июл '21 в 11:59
0
ответов
Предварительная обработка журнала при обнаружении аномалий
Я попытался реализовать эту работу по обнаружению аномалий неконтролируемых сообщений журнала, но этап предварительной обработки для меня совершенно непонятен. В этой статье они сказали, что сообщение дополняется до 40 слов, а затем вычисляют частот…
27 авг '21 в 17:39
0
ответов
Есть ли способ выяснить, почему алгоритм определяет эти данные как выбросы?
Я использовал изолирующий лес для обнаружения выбросов, но я хочу подробнее изучить, почему он определяет эти данные как выбросы, которые я с трудом вижу непосредственно по результатам. Есть какие-нибудь способы сделать это? Или как проверить точнос…
25 авг '21 в 22:18
0
ответов
Как найти только нижние граничные выбросы с изолированным лесом?
Когда я использую изолирующий лес, он возвращает выбросы как с более высокими, так и с более низкими границами. Есть ли какой-нибудь метод в изолированном лесу, чтобы находить только выбросы с более низкими границами? Например, в приведенном ниже ко…
25 авг '21 в 18:17
2
ответа
Удалить строки из набора данных в Python
Я пытаюсь взять несколько строк, которые классифицируются как выбросы, и удалить эти строки из исходного набора данных, но я не могу заставить его работать - вы, ребята, знаете, что идет не так? Я пытаюсь запустить следующий код и получаю сообщение …
08 сен '21 в 18:23
1
ответ
Почему мое базовое значение в изолированном лесу слишком велико и сильно отличается от прогнозируемого значения?
Я использовал модель изолированного леса для обнаружения выбросов, а также попытался построить график shap_force, чтобы увидеть особенности. Модель изолированного леса, которую я строю, выглядит так: model = IsolationForest(n_estimators=50, max_samp…
14 сен '21 в 20:50