Разница между генеративным, дискриминирующим и параметрическим, непараметрическим алгоритмом / моделью
Здесь в SO я нашел следующее объяснение порождающих и дискриминационных алгоритмов:
"Генеративный алгоритм моделирует, как были сгенерированы данные для классификации сигнала. Он задает вопрос: исходя из моих предположений о генерации, какая категория с наибольшей вероятностью будет генерировать этот сигнал?
Дискриминационный алгоритм не заботится о том, как были сгенерированы данные, он просто классифицирует данный сигнал ".
А вот определение для параметрических и непараметрических алгоритмов
"Параметрический: данные взяты из распределения вероятностей конкретной формы до неизвестных параметров. Непараметрические: данные получены из определенного неопределенного распределения вероятностей".
По сути, можно ли сказать, что порождающие и параметрические алгоритмы предполагают базовую модель, тогда как дискриминационные и непараметрические алгоритмы не предполагают какую-либо модель?
Благодарю.
3 ответа
Скажем, у вас есть входы X (возможно, вектор) и выход Y (возможно, одномерный). Ваша цель - предсказать Y с учетом X.
Генеративный метод использует модель совместной вероятности p(X,Y) для определения P(Y|X). Таким образом, можно с учетом генеративной модели с известными параметрами производить выборку совместно из распределения p(X,Y) для получения новых выборок как входных данных X и выходных данных Y (обратите внимание, что они распределены в соответствии с предполагаемым, не истинным, распределением, если вы сделай это). Сравните это с дискриминационными подходами, которые имеют только модель вида p(Y|X). Таким образом, с входом X они могут выбирать Y; однако, они не могут пробовать новый X.
Оба предполагают модель. Однако дискриминационные подходы предполагают только модель того, как Y зависит от X, а не от X. Генеративные подходы моделируют оба. Таким образом, учитывая фиксированное количество параметров, вы можете утверждать (и многие имеют), что их проще использовать для моделирования того, что вас волнует, p(Y|X), чем распределения X, поскольку вы всегда будете обеспечены X, для которого вы хотите знать Y.
Полезные ссылки: эта (очень короткая) статья Тома Минка. Это оригинальная статья Эндрю Нга и Майкла Джордана.
Различие между параметрическими и непараметрическими моделями, вероятно, будет труднее понять, пока у вас не будет больше опыта в области статистики. Параметрическая модель имеет фиксированное и конечное число параметров независимо от того, сколько точек данных наблюдается. Большинство вероятностных распределений являются параметрическими: рассмотрим переменную z, которая представляет собой рост людей, предполагаемый нормально распределенным. По мере того, как вы будете наблюдать за большим количеством людей, ваши оценки параметров \ mu и \ sigma, среднего значения и стандартного отклонения z, станут более точными, но у вас все еще будет только два параметра.
Напротив, количество параметров в непараметрической модели может расти с количеством данных. Рассмотрим индуцированное распределение по высоте людей, которое устанавливает нормальное распределение по каждой наблюдаемой выборке со средним значением, полученным из измерения и фиксированным стандартным отклонением. Предельное распределение по новым высотам представляет собой смесь нормальных распределений, и число компонентов смеси увеличивается с каждой новой точкой данных. Это непараметрическая модель роста людей. Этот конкретный пример называется оценщиком плотности ядра. Популярные (но более сложные) непараметрические модели включают гауссовские процессы для регрессии и процессы Дирихле.
Здесь можно найти довольно хорошее руководство по непараметрическим методам, в котором процесс "Китайский ресторан" рассматривается как предел модели конечной смеси.
Я не думаю, что вы можете сказать это. Например, линейная регрессия является дискриминационным алгоритмом - вы делаете предположение о P(Y|X), а затем оцениваете параметры непосредственно из данных, не делая никаких предположений о P(X) или P(X|Y), как вы это делаете в случае генеративных моделей. Но в то же время любой вывод, основанный на линейной регрессии, включая свойства параметров, является параметрической оценкой, поскольку существует предположение о поведении ненаблюдаемых ошибок.
Здесь я говорю только о параметрических / непараметрических. Генеративное / дискриминационное является отдельной концепцией.
Непараметрическая модель означает, что вы не делаете никаких предположений о распределении ваших данных. Например, в реальном мире данные не будут на 100% следовать теоретическим распределениям, таким как гауссовское, бета, пуассоновское, вейбулловское и т. Д. Эти распределения разработаны для наших нужд для моделирования данных.
С другой стороны, параметрические модели пытаются полностью объяснить наши данные, используя параметры. На практике этот способ предпочтителен, потому что он упрощает определение того, как модель должна вести себя в различных обстоятельствах (например, мы уже знаем производную / градиенты модели, что происходит, когда мы устанавливаем слишком высокую / слишком низкую скорость в Пуассоне, так далее.)