Почему необходимо количество итераций в самоорганизующейся карте?

:)

Когда я защищал свое предложение по диссертации, один из моих профессоров спросил меня, почему мы должны указывать количество итераций в СДЛ? Он сказал, что должен был быть критерий конвергенции, чтобы мы прекратили тренировки.

Однако я понимаю, что у нас нет целевого вектора и, следовательно, мы не можем минимизировать стоимость.

Во-первых, у меня вопрос: зачем нужны MAX_ITERATIONS, а во-вторых, что гарантирует нам, что количество выбранных нами итераций даст оптимальную карту.:(

PS Исходя из опыта, я попытался использовать 1000 итераций и 10000 итераций в наборе цветовых данных. Кажется, что 10000 итераций не дают лучшей визуализации, чем 1000.:(

2 ответа

Итак, и вы, и ваш профессор правы: вы должны указать жесткий предел количества итераций и критерия сходимости.

Критерий конвергенции. Хотя ваше право на SOM не контролируется и, следовательно, не имеет целевых векторов, их все равно можно рассматривать как минимизацию некоторой функции стоимости. В общем, большинство неконтролируемых методов машинного обучения могут попытаться сделать что-то вроде минимизации неучтенной дисперсии, максимизации получения информации и т. Д. В частности, для SOM я использовал весовые дельты в качестве критерия. То есть, когда дополнительная итерация не изменяет веса SOM более чем на некоторый порог, прекратите итерацию.

Ограничение итерации. Несмотря на наличие критерия сходимости, необходим жесткий предел, если SOM не сходится (вы не хотите, чтобы он работал вечно). Если бы вы использовали мой пример критерия весовых дельт, то мог бы быть случай, когда веса продолжали колебаться между итерациями, в результате чего критерий никогда не выполнялся.

С Днем Рождения!

У вас неявно есть функция целевых затрат, чтобы минимизировать SOM. SOM сродни многомерному масштабированию (MDS). Цель состоит в том, чтобы поддерживать топологические отношения; следовательно, каждая итерация SOM фактически сводит к минимуму ошибку между "расстоянием любых двух точек в исходном пространстве" и "расстоянием тех же двух точек в целевом пространстве", за исключением того, что в SOM эти сходные точки представлены с использованием нейрона в целевое пространство. Это также, как SOM может быть использован для кластеризации.

Процесс итерации можно рассматривать как градиентный спуск. При минимизации функции стоимости квадратичной ошибки она также может быть захвачена локальным минимумом. Это также может объяснить, почему SOM может привести к "перегибам" даже после большого количества итераций.

Другие вопросы по тегам