随机森林和增强算法是参数化还是非参数化?


13

通过阅读出色的统计模型:这两种文化(Breiman 2001),我们可以抓住传统统计模型(例如线性回归)和机器学习算法(例如Bagging,Random Forest,Boosted tree ...)之间的所有差异。

布雷曼批评数据模型(参数化),因为它们基于这样的假设:观测值是由统计学家规定的已知的正式模型生成的,该模型可能无法很好地模仿自然。另一方面,机器学习算法不采用任何形式化的模型,而是直接从数据中学习输入变量和输出变量之间的关联。

我意识到Bagging / RF和Boosting也是某种参数:例如,ntree,RF中的mtry学习率包率,随机梯度Boosted树中的树复杂性都是调整参数。由于我们正在使用数据来查找这些参数的最佳值,因此我们还需要根据数据估算这些参数。

那有什么区别呢?RF和Boosted Trees参数模型吗?

Answers:


12

参数模型具有参数(推断它们)或关于数据分布的假设,而RF,神经网络或增强树具有与算法本身相关的参数,但是它们不需要关于数据分布的假设或将数据分类为理论分布。实际上,几乎所有算法都具有与优化相关的参数,例如迭代或余量值。


5
因此,总结一下:1)ML中的参数和参数模型参数都是基于数据进行调整/估计的,但2)ML中的参数控制着算法如何从数据中学习(不对数据做任何假设)以及下游数据生成),而参数模型(先验模型)的参数控制着假定已产生数据的机制(有很多不切实际的假设,在实践中很少使用)。您认为这是一个足够的摘要吗?您会添加/更改任何内容吗?
Antoine

4
我认为Breiman论文中总结了所有内容的一句话是“算法建模将重点从数据模型转移到算法的属性”。
Antoine

1
您可以这样总结,但是..不要低估参数模型。在某些情况下,它们对于解决许多问题是必要且最佳的。同样,他们的假设也不是不切实际的。从正态到二项式再到对数正态,几何等等,许多理论分布都可以有效地解释很多事情。这不是一个或另一个,而是选择正确的方法来解决问题。
D.Castro

4
我同意。当基础物理过程众所周知时,参数模型就适用。当基本过程未知时,布雷曼批评使用参数模型进行知识发现和预测
Antoine 2015年

1

我认为参数化和非参数化的标准是:参数的数量是否随训练样本的数量而增长。对于逻辑回归和svm,选择功能部件时,通过添加更多训练数据将不会获得更多参数。但是对于RF等等,即使树的数量不变,模型的细节也会改变(例如树的深度)。


但在RF或Boosting中,增加树的深度不会添加参数。您仍然有tree.complexity参数,只需更改其值即可。另外,在RF和Boosting中,森林/序列中的树木数量会根据您的样本大小而改变
Antoine

在我的选项中,当树的深度更改时,树中会有更多拆分,因此您拥有更多参数。当RF和Boosting中的树数随着数据的变化而变化时,但是当模型为线性模型时,则不会发生这种情况。
张宇

1

从统计意义上讲,如果根据数据学习或推断参数,则该模型是参数化的。从这个意义上讲,树是非参数的。当然,树的深度是算法的一个参数,但是它并不是从数据中固有地得出的,而是用户必须提供的输入参数。


因此,假设您必须向非技术人员介绍OLS和基于树的模型,您能否说前者是参数化的而后者是非参数化的呢?
Tanguy
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.