随机森林和增强算法是参数化还是非参数化？

13

通过阅读出色的统计模型：这两种文化（Breiman 2001），我们可以抓住传统统计模型（例如线性回归）和机器学习算法（例如Bagging，Random Forest，Boosted tree ...）之间的所有差异。

布雷曼批评数据模型（参数化），因为它们基于这样的假设：观测值是由统计学家规定的已知的正式模型生成的，该模型可能无法很好地模仿自然。另一方面，机器学习算法不采用任何形式化的模型，而是直接从数据中学习输入变量和输出变量之间的关联。

我意识到Bagging / RF和Boosting也是某种参数：例如，ntree，RF中的mtry，学习率，包率，随机梯度Boosted树中的树复杂性都是调整参数。由于我们正在使用数据来查找这些参数的最佳值，因此我们还需要根据数据估算这些参数。

那有什么区别呢？RF和Boosted Trees参数模型吗？

— 安托万
source

12

参数模型具有参数（推断它们）或关于数据分布的假设，而RF，神经网络或增强树具有与算法本身相关的参数，但是它们不需要关于数据分布的假设或将数据分类为理论分布。实际上，几乎所有算法都具有与优化相关的参数，例如迭代或余量值。

— 卡斯特罗
source

5

因此，总结一下：1）ML中的参数和参数模型参数都是基于数据进行调整/估计的，但2）ML中的参数控制着算法如何从数据中学习（不对数据做任何假设）以及下游数据生成），而参数模型（先验模型）的参数控制着假定已产生数据的机制（有很多不切实际的假设，在实践中很少使用）。您认为这是一个足够的摘要吗？您会添加/更改任何内容吗？

— Antoine

4

我认为Breiman论文中总结了所有内容的一句话是“算法建模将重点从数据模型转移到算法的属性”。

— Antoine

1

您可以这样总结，但是..不要低估参数模型。在某些情况下，它们对于解决许多问题是必要且最佳的。同样，他们的假设也不是不切实际的。从正态到二项式再到对数正态，几何等等，许多理论分布都可以有效地解释很多事情。这不是一个或另一个，而是选择正确的方法来解决问题。

— D.Castro

4

我同意。当基础物理过程众所周知时，参数模型就适用。当基本过程未知时，布雷曼批评使用参数模型进行知识发现和预测

— Antoine 2015年

1

我认为参数化和非参数化的标准是：参数的数量是否随训练样本的数量而增长。对于逻辑回归和svm，选择功能部件时，通过添加更多训练数据将不会获得更多参数。但是对于RF等等，即使树的数量不变，模型的细节也会改变（例如树的深度）。

— 张瑜
source

但在RF或Boosting中，增加树的深度不会添加参数。您仍然有tree.complexity参数，只需更改其值即可。另外，在RF和Boosting中，森林/序列中的树木数量会根据您的样本大小而改变

— Antoine

在我的选项中，当树的深度更改时，树中会有更多拆分，因此您拥有更多参数。当RF和Boosting中的树数随着数据的变化而变化时，但是当模型为线性模型时，则不会发生这种情况。

— 张宇

1

从统计意义上讲，如果根据数据学习或推断参数，则该模型是参数化的。从这个意义上讲，树是非参数的。当然，树的深度是算法的一个参数，但是它并不是从数据中固有地得出的，而是用户必须提供的输入参数。

— 彼得·潘基
source

因此，假设您必须向非技术人员介绍OLS和基于树的模型，您能否说前者是参数化的而后者是非参数化的呢？

— Tanguy