Описание тега isolation-forest

0 ответов

Что делать, если я не могу оценить производительность алгоритма машинного обучения для обнаружения аномалий с помощью AUC? [закрыто]

У меня есть данные с 10 000 строками и 40 столбцами. Также для каждой строки есть метка: « аномалия » или « нормальные данные ». В данных есть 5% аномалий. Цель этого исследования - найти лучший алгоритм обнаружения аномалий. Поэтому я могу применит…
1 ответ

Изолированный лес с множеством функций, обнаруживающих все как аномалию

У меня есть реализация изолированного леса, в которой я беру функции (все числовые); масштабируйте их от 0 до 1 from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() data = scaler.fit_transform(df) x = pd.DataFrame(data) Затем вызов…
10 фев '21 в 13:20
0 ответов

Обнаружение аномалий с помощью изолированного леса для многомерных данных

Я пытаюсь реализовать обнаружение аномалий, используя набор данных, который имеет 3 функции. Я отмасштабировал черты и пошел рисовать. Как видите, аномалии (выделены желтым цветом) идентифицированы в середине кластера; что для меня не имеет особого …
0 ответов

неверные результаты IsolationForest

Меня вдохновил этот блокнот , и я экспериментирую IsolationForestалгоритм для контекста обнаружения аномалий в SF-версии набора данных KDDCUP99, включая 4 атрибута. Данные берутся напрямую из sklearn и после предварительной обработки (метка, кодирую…
1 ответ

Как использовать Isolation Forest в Python

Я работаю над обнаружением выбросов в моем немаркированном наборе данных (данные не помечены как выбросы / выбросы), и я использую Isolation Forest в Python (библиотека scikit-learn). Я хочу получить оценку аномальности данных в моем наборе данных, …
1 ответ

несоответствие между настройкой загрязнения и прогнозом количества выбросов в изолированном лесу Sklearn

Меня вдохновил этот блокнот , и я экспериментирую IsolationForest алгоритм с использованием scikit-learn==0.22.2.post1для контекста обнаружения аномалий в SF- версии набора данных KDDCUP99 , включая 4 атрибута. Данные берутся напрямую из sklearn и п…
0 ответов

Низкая оценка изолированности леса означает, что это локальный выброс?

Означает ли низкий показатель изолированности леса, что это локальный выброс? я использовал для выявления мошенничества. но мне интересно, можно ли рассматривать эти зеленые точки как локальные выбросы или нет. Кроме того, не только для обнаружения …
12 апр '21 в 07:41
0 ответов

ValueError: количество функций модели должно соответствовать входным. Модель n_features - 30, а входная n_features - 2

Я новичок в науке о данных и машинном обучении. Итак, я пытаюсь визуализировать выброс, используя алгоритм Isolation Forest Algorithm, на который я ссылался здесь . Я использую набор данных о мошенничестве с кредитными картами из Kaggle, X = столбец…
0 ответов

Isolation Forest - Sci Kit Learn - Почему изменение загрязнения влияет на score_samples? [закрыто]

Я думал, что загрязнение - это просто порог, который определяет, сколько выбросов принимается во внимание. Однако что странно, так это то, что при другом загрязнении также вывод score_samples означает, что оценка аномалии изменяется. Не следует ли и…
01 июн '21 в 10:54
0 ответов

как установить max_depth в реализации sklearn Isolation Forest?

Я использовал Isolation Forest и использовал его для прогнозирования на других выборках (взятых из той же популяции). Из-за большого размера выборок я не могу уместить Forest для всех данных (потому что я не могу преобразовать эти данные в фрейм дан…
04 июн '21 в 20:37
0 ответов

Отображение того, является ли какое-либо значение функции образца выбросом с помощью пакета обнаружения аномалий Isolation Forest в Python

Насколько я понимаю, результат прогнозирования выбросов этого пакета возвращает, являются ли данные выборки (которые могут состоять из значений для нескольких функций) выбросом или нет (-1 или 1). Однако в моем специальном приложении мне нужно знать…
17 июн '21 в 20:47
0 ответов

IsolationForest всегда предсказывает 1

Я работаю над проектом по обнаружению out-of-domainввод текста с помощью функции и. Ниже приведены мои работы в обобщенном виде: ОБУЧЕНИЕ В tfidf: Подгонка и преобразование набора данных в домене с помощью. Установите tfidftransformer () вместе с my…
3 ответа

В чем разница между функцией решения и score_samples вolated_forest в SKLearn

Я прочитал документацию функции решения и score_samples здесь , но не мог понять, в чем разница между этими двумя методами и которые один я должен использовать для алгоритма обнаружения с выбросом. Любая помощь будет оценена по достоинству.
21 июн '21 в 05:06
0 ответов

Как обнаружить аномалии в нескольких разных IP-адресах? [закрыто]

Как только наблюдается аномальное поведение в общем количестве подключений, это обнаруживается как аномалия. Каждый IP-адрес назначения имеет различное поведение в зависимости от количества подключений, которые он должен получить, например, для IP-а…
0 ответов

IsolationForest, преобразование данных

Мы с коллегой пытаемся обнаружить аномалии в большом наборе данных. Мы хотим опробовать различные алгоритмы (LOF, OC-SVM, DBSCAN и т.д.), но в настоящее время мы работаем с IsolationForest. Наш набор данных в настоящее время сформирован следующим об…
0 ответов

Предварительная обработка журнала при обнаружении аномалий

Я попытался реализовать эту работу по обнаружению аномалий неконтролируемых сообщений журнала, но этап предварительной обработки для меня совершенно непонятен. В этой статье они сказали, что сообщение дополняется до 40 слов, а затем вычисляют частот…
0 ответов

Есть ли способ выяснить, почему алгоритм определяет эти данные как выбросы?

Я использовал изолирующий лес для обнаружения выбросов, но я хочу подробнее изучить, почему он определяет эти данные как выбросы, которые я с трудом вижу непосредственно по результатам. Есть какие-нибудь способы сделать это? Или как проверить точнос…
25 авг '21 в 22:18
0 ответов

Как найти только нижние граничные выбросы с изолированным лесом?

Когда я использую изолирующий лес, он возвращает выбросы как с более высокими, так и с более низкими границами. Есть ли какой-нибудь метод в изолированном лесу, чтобы находить только выбросы с более низкими границами? Например, в приведенном ниже ко…
2 ответа

Удалить строки из набора данных в Python

Я пытаюсь взять несколько строк, которые классифицируются как выбросы, и удалить эти строки из исходного набора данных, но я не могу заставить его работать - вы, ребята, знаете, что идет не так? Я пытаюсь запустить следующий код и получаю сообщение …
08 сен '21 в 18:23
1 ответ

Почему мое базовое значение в изолированном лесу слишком велико и сильно отличается от прогнозируемого значения?

Я использовал модель изолированного леса для обнаружения выбросов, а также попытался построить график shap_force, чтобы увидеть особенности. Модель изолированного леса, которую я строю, выглядит так: model = IsolationForest(n_estimators=50, max_samp…
14 сен '21 в 20:50