Приемы предварительной обработки данных для авто-кодировщика

В последнее время я пытаюсь использовать авто-кодировщик для поиска аномалий, но некоторые из входных функций - это данные подсчета (например, количество кликов или количество показов). Нужно ли нормализовать или масштабировать перед тренировкой?

2 ответа

Решение

Да, вы будете. Наиболее распространенный способ сделать это - вычесть среднее значение и разделить на стандартное отклонение. Каждый из ваших элементов клика должен быть нормализован отдельно. Например, если у вас есть номера "nb_click_banner" и "nb_click_sidebar", вы должны нормализовать оба независимо. Это помогает сети обучаться быстрее, но также дает всем функциям одинаковые весовые коэффициенты на входе и не требует, чтобы сеть научилась делить весовые коэффициенты на те или иные коэффициенты, чтобы обеспечить одинаковый эффект на выходе.

Я бы предположил, что любой вид числовой функции потребует нормализации и предварительной обработки данных масштаба, в противном случае вы можете оказаться в ситуации, когда одна функция влияет на процесс классификации в большей степени, чем другие, просто из-за диапазона данных, которые она может содержать.

Другие вопросы по тегам