Идея, лежащая в основе xgboost/lightgbm/catboost в сравнении

Question

Идея, лежащая в основе xgboost/lightgbm/catboost в сравнении

Я пытаюсь решить, какой из следующих вариантов я буду использовать на практике для задач регрессии: xgboost, lightgbm или catboost (python 3).

Итак, какова общая идея каждого из них? Почему я должен выбрать один, а не другой?

Меня не интересует очень небольшая разница в показателе точности, например 0,781 против 0,782. Результат должен быть надежным, а мой инструмент должен быть надежным, удобным в использовании. Рабочая лошадка.

-1

xgboost lightgbm catboost

Источник

user10692393 24 дек '18 в 18:06

0 ответов

Другие вопросы по тегам xgboost lightgbm catboost

user6663055 06 ноя '19 в 17:36 2019-11-06 17:36 · Answer 1 · 2019-11-06 17:36

Насколько я понимаю об этих методах, то, как они реализованы, отличается, иначе они реализовали методы GBM.

Так что вам просто нужно попытаться настроить гиперпараметры. Также неплохо прочитать этот документ:https://towardsdatascience.com/catboost-vs-light-gbm-vs-xgboost-5f93620723db

user2263303 30 авг '20 в 00:19 2020-08-30 00:19 · Answer 2 · 2020-08-30 00:19

Вы не можете определить априори, какой алгоритм дерева (или какой-либо алгоритм) будет автоматически лучшим. Это из-за https://en.wikipedia.org/wiki/No_free_lunch_theorem

Лучше всего попробовать их все. Вы также должны добавить случайный лес (RF) в качестве еще одного, чтобы попробовать.

Я скажу, что http://catboost.ai/ (CB) имеет одно преимущество перед другими: если у вас есть категориальные переменные, CB, скорее всего, превзойдет другие, потому что он может обрабатывать категориальные переменные напрямую без One-Hot-Encoding.

Вы можете попробовать поиск по сетке http://h2o.ai/, который поддерживает несколько алгоритмов (RF, XGBoost, GBM, Linear Regression) с гипертонастройкой параметров, чтобы увидеть, какой из них работает лучше всего. Вы можете запустить это в одночасье. (CB не включен в поиск по сетке H2O)