NSL KDD Особенности от Raw Live Packets?
Я хочу извлечь необработанные данные, используя pcap и wincap. Поскольку я буду тестировать его в нейронной сети, обученной с использованием набора данных NSLKDD, я хочу знать, как получить эти 41 атрибут из необработанных данных?.. или даже если это невозможно, возможно ли получить такие функции, как src_bytes, dst host_same_srv_rate, diff_srv_rate, count, dst_host_serror_rate, неправильный_фрагмент из необработанных живых захваченных пакетов из pcap?
3 ответа
Если кто-то захочет поэкспериментировать с функциями KDD '99, несмотря на плохую репутацию набора данных, я создал инструмент с именем kdd99extractor для извлечения подмножества функций KDD из живого трафика или файла.pcap.
Этот инструмент был создан в рамках одного университетского проекта. Я не нашел подробной документации по функциям KDD '99, поэтому результирующие значения могут немного отличаться от оригинальных KDD. Некоторые используемые источники упоминаются в README. Также реализация не завершена. Например, функции контента, связанные с полезной нагрузкой, не реализованы.
Это доступно в моем репозитории github.
Данные Кубка KDD 1999 года несовершенны и не должны больше использоваться
Даже эта "очищенная" версия (NSL KDD) нереальна.
Кроме того, многие из проведенных ими "зачисток" не имеют смысла. Реальные данные имеют дубликаты, и частота таких записей важна. Удаляя дубликаты, вы смещаете ваши данные в сторону более редких наблюдений. Вы не должны делать это вслепую "просто потому, что", или даже хуже: чтобы уменьшить размер набора данных.
Однако самая большая проблема остается:
KDD99 никак не реалистичен
Это не было реалистично даже в 1999 году, но с тех пор Интернет сильно изменился.
Использование этого набора данных для машинного обучения нецелесообразно. Атаки в ней лучше всего обнаруживаются простыми правилами межсетевого экрана проверки пакетов. Атаки хорошо понятны, и соответствующие детекторы - высокоэффективные, со 100% уровнем обнаружения и 0% ложных срабатываний - должны быть доступны во многих случаях на современных маршрутизаторах. Они настолько вездесущи, что этих атак практически не существует с 1998 года или около того.
Если вы хотите реальных атак, ищите SQL-инъекции и тому подобное. Но они не будут отображаться в файлах pcap, но в значительной степени недокументированный способ извлечения возможностей KDDCup'99 из этого...
Прекратите использовать этот набор данных.
Серьезно, это бесполезные данные. Маркированный, большой, часто используемый, но бесполезный.
Кажется, я опоздал с ответом. Но, как уже ответили другие люди, набор данных KDD99 устарел.
Я не знаю о полезности набора данных NSL-KDD. Тем не менее, есть пара вещей:
- При получении информации из сетевого трафика лучшее, что вы можете сделать, это получить статистическую информацию (контентная информация обычно зашифрована). Что вы можете сделать, это создать свой собственный набор данных, чтобы описать поведение, которое вы хотите считать "нормальным". Затем обучите нейронную сеть обнаружению отклонений от этого "нормального" поведения.
- Будьте осторожны, зная, что даже определение "нормального" поведения меняется от сети к сети и время от времени.
Вы можете взглянуть на эту работу, я участвовал в ней, в которой, помимо учета статистических характеристик исходного KDD, используются дополнительные функции из реальной сетевой среды.
Программное обеспечение предоставляется по запросу и является бесплатным для академических целей! Вот две ссылки на публикации:
- http://link.springer.com/chapter/10.1007/978-94-007-6818-5_30
- http://www.iaeng.org/publication/WCECS2012/WCECS2012_pp30-35.pdf
Спасибо!