Случайный лес (в питоне) алгоритм повышения?
Я ищу основные различия между случайным лесом и повышением градиента, и я не понимаю, использует ли случайный лес методы повышения, и если нет, то почему. Спасибо!
0 ответов
Есть две части истории создания модели. Они есть
1. Как сделать обучение и тестирование?
2. Какой алгоритм использовать для прогнозирования?
Разницу между Случайным Лесом и Повышением можно легко понять, если понять два вышеупомянутых вопроса.
Случайный лес использует метод начальной загрузки для обучения / тестирования ( Q1 выше) и деревья решений для прогнозирования (Q2 выше) . Начальная загрузка просто означает создание случайных выборок из набора данных с заменой. Каждый загруженный образец имеет соответствующий образец для удержания или выхода из пакета, который используется для тестирования. Это означает, что если вы сгенерируете 100 загрузочных выборок, каждый раз вы будете получать набор прогнозов. Окончательный прогноз - это просто среднее из всех 100 прогнозов.
При использовании техники повышения, мы по существу заботимся только о Q1 выше. Мы можем использовать любой алгоритм... это может быть дерево решений, или NN, или KNN, или SVM. Теперь давайте посмотрим, как проходит обучение / тестирование здесь. Методы повышения также дают несколько случайных выборок, но это делается более продуманно. Последующие выборки зависят от весов, присвоенных записям в предыдущей выборке, которые не были правильно спрогнозированы, поэтому их называют слабыми учениками Окончательный прогноз также является не простым средним из всех 100 прогнозов, а средневзвешенным.
Надеюсь, это поможет, случайный лес и бустинг - два мощных продвинутых метода, которые трудно понять быстро. Ура!
Для получения дополнительных знаний, вы можете обратиться к этим ссылкам YouTube:
https://www.youtube.com/watch?v=2Mg8QD0F1dQ&feature=youtu.be
https://www.youtube.com/watch?v=GM3CDQfQ4sw&feature=youtu.be
Надеюсь, это поможет!
Нет.
Разница неуловима, но важна - ее алгоритм Bagging ( Bootstrap агрегатирование). Ресэмплинг в Random Forrest является случайным, а в Boosting - нет.
Путаница может возникнуть из-за того, что AdaBoost (повышающий алгоритм) может использовать RF после нескольких итераций оптимизации.