Локальные и глобальные минимумы функции стоимости в логистической регрессии

Я неправильно понимаю идею, лежащую в основе минимумов при выводе формулы логистической регрессии.

Идея состоит в том, чтобы максимально увеличить гипотезу (т. Е. Вероятность правильного предсказания, близкую к 1, насколько это возможно), что, в свою очередь, требует максимально возможной минимизации функции стоимости $J(\theta)$.

Теперь мне сказали, что для того, чтобы все это работало, функция стоимости должна быть выпуклой. Мое понимание выпуклости требует, чтобы не было максимумов, и поэтому может быть только один минимум - глобальный минимум. Это действительно так? Если это не так, пожалуйста, объясните, почему нет. Кроме того, если это не так, то это подразумевает возможность множества минимумов в функции стоимости, что подразумевает множество наборов параметров, дающих более высокую и более высокую вероятность. Это возможно? Или я могу быть уверен, что возвращаемые параметры относятся к глобальным минимумам и, следовательно, к наибольшей вероятности / прогнозу?

2 ответа

Тот факт, что мы используем выпуклую функцию стоимости, не гарантирует выпуклую проблему.

Существует различие между выпуклой функцией стоимости и выпуклым методом.

Типичные функции стоимости, с которыми вы сталкиваетесь (кросс-энтропия, абсолютные потери, наименьшие квадраты), предназначены для выпуклости.

Однако выпуклость задачи зависит также от типа используемого алгоритма ML.

Линейные алгоритмы (линейная регрессия, логистическая регрессия и т. Д.) Дадут вам выпуклые решения, то есть они будут сходиться. Однако при использовании нейронных сетей со скрытыми слоями вам больше не гарантируется выпуклое решение.

Таким образом, выпуклость является мерой описания вашего метода, а не только вашей функции стоимости!

LR - это метод линейной классификации, поэтому вы должны сталкиваться с проблемой выпуклой оптимизации при каждом его использовании! Однако, если данные не являются линейно разделимыми, это может не дать решения, и оно определенно не даст вам хорошего решения в этом случае.

Да, "Логистическая регрессия" и "Линейная регрессия" направлены на поиск весов и смещений, которые повышают точность модели (или, скажем, хорошо работают с более высокой вероятностью на тестовых данных или данных реального мира). Чтобы достичь этого, мы пытаемся найти весы и отклонения таким образом, чтобы у них было наименьшее отклонение (скажем, от стоимости) между прогнозированием и реальными результатами. Итак, если мы построим функцию стоимости и найдем ее минимумы, это достигнет той же цели. Следовательно, мы используем модель таким образом, чтобы ее функция стоимости имела один локальный минимум (т.е. модель должна быть выпуклой)

Другие вопросы по тегам