Классификация - KDD-Cup 1999 и DARPA 1998/99 Наборы данных для обнаружения публичных вторжений
Как создаются огромные общедоступные наборы данных по обнаружению вторжений KDD-Cup 1999 и DARPA 1998/99? Кто-нибудь знает программный инструмент, который они использовали для классификации и сохранения состояния сеансов этих необработанных наборов данных? Я имею в виду, как только вы создали сетевые данные, как вы классифицируете сеансы как anomalous (intrusion)
а также normal
? Есть ли какой-нибудь специальный программный инструмент или машина, которая делает это?
1 ответ
Прекратите использовать этот набор данных.
Это моделируется, а не реалистично.
Современные атаки нигде не похожи на те атаки, которые имитировались там в начале 90-х годов, и вы можете обнаружить эти атаки с помощью тривиальных фильтров, не нужно использовать машинное обучение.
Этот набор данных имеет плохую репутацию в сообществе ML:
В результате мы настоятельно рекомендуем, чтобы (1) все исследователи прекратили использовать набор данных KDD Cup '99, (2) веб-сайты KDD Cup и UCI содержат предупреждение на веб-странице набора данных KDD Cup '99, информирующее исследователей о наличии известных проблем с набор данных и (3) рецензенты для конференций и журналов (или даже откровенно отвергают их, как это принято в сообществе по сетевой безопасности), причем результаты получены исключительно из набора данных KDD Cup '99.
Что бы вы ни делали с этим синтетическим набором данных - это бесполезно.
Кроме того, прочитайте документацию данных. Похоже, они использовали BSM, если у вас где-то еще есть компьютер SunOS (сейчас Oracle)...