Идея, лежащая в основе xgboost/lightgbm/catboost в сравнении

Я пытаюсь решить, какой из следующих вариантов я буду использовать на практике для задач регрессии: xgboost, lightgbm или catboost (python 3).

Итак, какова общая идея каждого из них? Почему я должен выбрать один, а не другой?

Меня не интересует очень небольшая разница в показателе точности, например 0,781 против 0,782. Результат должен быть надежным, а мой инструмент должен быть надежным, удобным в использовании. Рабочая лошадка.

0 ответов

Насколько я понимаю об этих методах, то, как они реализованы, отличается, иначе они реализовали методы GBM.

Так что вам просто нужно попытаться настроить гиперпараметры. Также неплохо прочитать этот документ:https://towardsdatascience.com/catboost-vs-light-gbm-vs-xgboost-5f93620723db

Вы не можете определить априори, какой алгоритм дерева (или какой-либо алгоритм) будет автоматически лучшим. Это из-за https://en.wikipedia.org/wiki/No_free_lunch_theorem

Лучше всего попробовать их все. Вы также должны добавить случайный лес (RF) в качестве еще одного, чтобы попробовать.

Я скажу, что http://catboost.ai/ (CB) имеет одно преимущество перед другими: если у вас есть категориальные переменные, CB, скорее всего, превзойдет другие, потому что он может обрабатывать категориальные переменные напрямую без One-Hot-Encoding.

Вы можете попробовать поиск по сетке http://h2o.ai/, который поддерживает несколько алгоритмов (RF, XGBoost, GBM, Linear Regression) с гипертонастройкой параметров, чтобы увидеть, какой из них работает лучше всего. Вы можете запустить это в одночасье. (CB не включен в поиск по сетке H2O)

Другие вопросы по тегам