Выбор переменных для задачи классификации в CIC IDS 2017
Я играю с набором данных CIC IDS 2017. Я хочу сделать бинарную классификацию. Существует много переменных: некоторые из них являются двоичными, некоторые являются счетчиками (например, количество пакетов в направлении FWD), некоторые измеряют минимальное или максимальное количество пакетов в некотором направлении, некоторые относятся ко времени между прибытием, некоторые являются стандартными отклонениями или средними значениями. что-то в определенном потоке,.... и в них есть корреляционные структуры.
Теперь моя проблема: как выбрать переменные? Я знаю, что дерево решений выбирает переменные, а также случайный лес. Я знаю, что логистическая регрессия может быть наказана LASSO. Но я подумал, есть ли какая-то другая техника, например, также объединение переменных (PCA не помогло). А также: как "стандартизировать" такие различные переменные?
Кроме того, я ищу распределения этих переменных, я хочу использовать их для методов обнаружения выбросов, а не просто для классификации, и я не знаю, как выбрать распределения для таких различных переменных.
Спасибо за любую помощь.