对于树参数 , MART 中的每个树都有同样数量的终端节点 , 但 XGBoost 可能还会包含终端节点惩罚 γ , 因此其终端节点的数量可能会不一样并且在最大终端节点数量的范围内 。XGBoost 也在叶权重上实现了 L2 正则化 , 并且还将在叶权重上实现 L1 正则化 。在随机化参数方面 , XGBoost 提供了列子采样和行子采样;而 MART 只提供了行子采样 。
为什么 XGBoost 能赢得「每一场」竞赛?通过使用模拟数据 , 论文作者首次表明树提升可以被看作是自适应地确定局部邻域 。使用 生成然后使用局部线性回归(使用了两种不同灵活度的拟合)来拟合它:然后使用平滑样条函数(使用了两种不同灵活度的拟合)来拟合它: 现在我们尝试提升的树桩(boosted tree stump)(两个终端节点)拟合:本论文详细说明了权重函数影响拟合的确定的方式 , 并且表明树提升可以被看作是直接在拟合阶段考虑偏置-方差权衡 。
这有助于邻域保持尽可能大 , 以避免方差不必要地增大 , 而且只有在复杂结构很显然的时候才会变小 。尽管当涉及到高维问题时 , 树提升「打败了」维度的诅咒(curse of dimensionality) , 而没有依赖任何距离指标 。另外 , 数据点之间的相似性也可以通过邻域的自适应调整而从数据中学习到 。这能使模型免疫维度的诅咒 。
另外更深度的树也有助于获取特征的交互 。因此无需搜索合适的变换 。因此 , 是提升树模型(即自适应的确定邻域)的帮助下 , MART 和 XGBoost 一般可以比其它方法实现更好的拟合 。它们可以执行自动特征选择并且获取高阶交互 , 而不会出现崩溃 。通过比较 MART 和 XGBoost , 尽管 MART 确实为所有树都设置了相同数量的终端节点 , 但 XGBoost 设置了 Tmax 和一个正则化参数使树更深了 , 同时仍然让方差保持很低 。
相比于 MART 的梯度提升 , XGBoost 所使用的牛顿提升很有可能能够学习到更好的结构 。XGBoost 还包含一个额外的随机化参数 , 即列子采样 , 这有助于进一步降低每个树的相关性 。本文的看法这篇论文从基础开始 , 后面又进行了详细的解读 , 可以帮助读者理解提升树方法背后的算法 。通过实证和模拟的比较 , 我们可以更好地理解提升树相比于其它模型的关键优势以及 XGBoost 优于一般 MART 的原因 。
因此 , 我们可以说 XGBoost 带来了改善提升树的新方法 。本分析师已经参与过几次 Kaggle 竞赛了 , 深知大家对 XGBoost 的兴趣以及对于如何调整 XGBoost 的超参数的广泛深度的讨论 。相信这篇文章能够启迪和帮助初学者以及中等水平的参赛者更好地详细理解 XGBoost 。参考文献Chen, T. and Guestrin, C. (2016). Xgboost: A scalable tree boosting system. In Proceedings of the 22Nd ACM SIGKDD International Conference on Knowl- edge Discovery and Data Mining, KDD 』16, pages 785–794, New York, NY, USA. ACM.Freund, Y. and Schapire, R. E. (1996). Experiments with a new boosting algorithm. In Saitta, L., editor, Proceedings of the Thirteenth International Conference on Machine Learning (ICML 1996), pages 148–156. Morgan Kaufmann.Friedman, J. H. (2002). Stochastic gradient boosting. Comput. Stat. Data Anal., 38(4):367–378.Hastie, T., Tibshirani, R., and Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition. Springer Series in Statistics. Springer.Kuhn, M. and Johnson, K. (2013). Applied Predictive Modeling. SpringerLink : Bu ?cher. Springer New York.Lichman, M. (2013). UCI machine learning repository.Murphy, K. P. (2012). Machine Learning: A Probabilistic Perspective. The MIT Press.Strobl, C., laure Boulesteix, A., and Augustin, T. (2006). Unbiased split selection for classification trees based on the gini index. Technical report.Vapnik, V. N. (1999). An overview of statistical learning theory. Trans. Neur. Netw., 10(5):988–999.Wei-Yin Loh, Y.-S. S. (1997). Split selection methods for classification trees. Statistica Sinica, 7(4):815–840.Wikipedia::Lasso. https://en.wikipedia.org/wiki/Lasso_(statistics)Wikipedia::Tikhonov regularization. https://en.wikipedia.org/wiki/Tikhonov_regularization 。
推荐阅读
- 学电工从哪入手,想学电工
- 学习软件开发要多久,41040102
- 手术机器人的霸主,达芬奇手术机器人
- 赛尔号灭世之心怎么得,3种常见机器人灭世场景
- 麦迪金针怎么学,赛尔号2麦麦迪麦迪金针的学习方法是
- 汽车维修技术网,手机维修技术学习
- 性爱机器人对女性,我的性爱机器人
- 机械翻译,机器翻译之父韦弗
- 索比斯刷什么,赛尔号索比斯学习力推荐
- 学英语哪个词典软件好,学习英语是用APP就够了吗