Обучение ансамблю в обучении без учителя

У меня есть вопрос относительно текущей литературы по ансамблевому обучению (более конкретно, по обучению без учителя).

Для того, что я читаю в литературе, Ensemble Learning применительно к обучению без учителя возобновляет в основном проблемы кластеризации. Однако, если у меня есть x неконтролируемых методов, которые выводят оценку (по аналогии с проблемой регрессии), существует ли подход, который может объединить эти результаты в один?

1 ответ

Об оценке рейтинга выбросов и выбросов.
Шуберт Э., Войдановский Р., Зимек А. и Кригель Х.П. (2012, апрель).
В материалах Международной конференции SIAM 2012 года по интеллектуальному анализу данных (стр. 1047-1058). Общество промышленной и прикладной математики.

В этой публикации мы не просто "нормализуем" баллы выбросов, но и предлагаем стратегию выбора членов ансамбля без присмотра, которая называется "жадный ансамбль".

Однако нормализация имеет решающее значение и трудно. Мы опубликовали некоторые из предыдущих достижений в отношении нормализации баллов как

Интерпретация и унификация выбросов.
Kriegel, HP, Kroger, P., Schubert, E. & Zimek, A. (2011, апрель).
В материалах Международной конференции SIAM 2011 года по интеллектуальному анализу данных (стр. 13-24). Общество промышленной и прикладной математики.

Если вы не нормализуете свои результаты (а минимального и максимального масштабирования недостаточно), вы, как правило, не сможете комбинировать их осмысленно, за исключением очень сильных предварительных условий. Даже два разных подпространства обычно дают несопоставимые значения из-за разного количества объектов и разных масштабов объектов.

Есть также некоторые работы над полуснадзорными ансамблями, например

Обучающие ансамбли: лучшее из обоих миров - под наблюдением и без присмотра.
Micenková, B., McWilliams, B. & Assent, I. (2014).
В материалах семинара ACM SIGKDD 2014 по обнаружению и описанию выбросов в рамках Разнообразия данных (ODD2). Нью-Йорк, штат Нью-Йорк, США (стр. 51-54).

Также остерегайтесь переоснащения. Достигнуть единственного хорошего результата довольно просто, настроив параметры и повторив оценку. Но это приводит к тому, что информация об оценке попадает в ваш эксперимент, т.е. Работать хорошо в широком диапазоне параметров и наборов данных очень сложно. Одним из ключевых наблюдений следующего исследования было то, что для каждого алгоритма вы найдете по крайней мере один набор данных и набор параметров, где он "превосходит" другие; но если вы немного измените параметры или используете другой набор данных, преимущества "улучшенных" новых методов не воспроизводятся.

Об оценке неконтролируемого обнаружения выбросов: показатели, наборы данных и эмпирическое исследование.
Campos, GO, Zimek, A., Сандер, J., Campello, RJ, Micenková, B., Schubert, E., ... & Houle, ME (2016).
Data Mining и Knowledge Discovery, 30(4), 891-927.

Таким образом, вам придется очень усердно работать, чтобы сделать надежную оценку. Будьте осторожны, как выбрать параметры.

Другие вопросы по тегам