Классификация - KDD-Cup 1999 и DARPA 1998/99 Наборы данных для обнаружения публичных вторжений

Как создаются огромные общедоступные наборы данных по обнаружению вторжений KDD-Cup 1999 и DARPA 1998/99? Кто-нибудь знает программный инструмент, который они использовали для классификации и сохранения состояния сеансов этих необработанных наборов данных? Я имею в виду, как только вы создали сетевые данные, как вы классифицируете сеансы как anomalous (intrusion) а также normal? Есть ли какой-нибудь специальный программный инструмент или машина, которая делает это?

1 ответ

Прекратите использовать этот набор данных.

Это моделируется, а не реалистично.

Современные атаки нигде не похожи на те атаки, которые имитировались там в начале 90-х годов, и вы можете обнаружить эти атаки с помощью тривиальных фильтров, не нужно использовать машинное обучение.

Этот набор данных имеет плохую репутацию в сообществе ML:

В результате мы настоятельно рекомендуем, чтобы (1) все исследователи прекратили использовать набор данных KDD Cup '99, (2) веб-сайты KDD Cup и UCI содержат предупреждение на веб-странице набора данных KDD Cup '99, информирующее исследователей о наличии известных проблем с набор данных и (3) рецензенты для конференций и журналов (или даже откровенно отвергают их, как это принято в сообществе по сетевой безопасности), причем результаты получены исключительно из набора данных KDD Cup '99.

Что бы вы ни делали с этим синтетическим набором данных - это бесполезно.

Кроме того, прочитайте документацию данных. Похоже, они использовали BSM, если у вас где-то еще есть компьютер SunOS (сейчас Oracle)...

Другие вопросы по тегам