Что делает параметр useLaplace в алгоритме WEKA j48?

Я занимаюсь майнингом набора данных, используя алгоритм дерева J48.

Я пытался понять, что useLaplace параметр делает. Единственное, что я должен пройти, это:

Сглаживаются ли значения в листьях на основе LapLace

это просто документация, которую предоставила WEKA. У меня есть несколько вопросов по этому поводу, хотя:

  1. Какие числа на листьях?
  2. Что такое сглаживание?
  3. Что такое LapLace? Это алгоритм, используемый для сглаживания?

Все, что я обнаружил в Интернете, на самом деле не дает подробных сведений о том, что на самом деле делает этот параметр, а просто объясняет, что он "включает сглаживание Лапласа".

1 ответ

Решение

Провост и Домингос обнаружили, что частотное сглаживание листовых оценок вероятностей, таких как поправка Лапласа, значительно повышает производительность дерева решений. Из того, что я прочитал, отсчеты на листьях (вероятность листа в моем предыдущем предложении) используются для определения вероятностной оценки, которая может быть определена с помощью:

P (быть классом A | для атрибута x) = TruePositive/(TruePositive + FalsePositive)

Сглаживание состоит в уменьшении шума и ошибок среди результатов в дереве, чтобы получить более точную вероятностную оценку.

Лаплас - это формула коррекции частоты:

PLaplace (будет классом A | для атрибута x)= (T P + 1)/(T P + F P + C)

где C - число классов в наборе данных.

Другие вопросы по тегам