通过阅读出色的统计模型:这两种文化(Breiman 2001),我们可以抓住传统统计模型(例如线性回归)和机器学习算法(例如Bagging,Random Forest,Boosted tree ...)之间的所有差异。
布雷曼批评数据模型(参数化),因为它们基于这样的假设:观测值是由统计学家规定的已知的正式模型生成的,该模型可能无法很好地模仿自然。另一方面,机器学习算法不采用任何形式化的模型,而是直接从数据中学习输入变量和输出变量之间的关联。
我意识到Bagging / RF和Boosting也是某种参数:例如,ntree,RF中的mtry,学习率,包率,随机梯度Boosted树中的树复杂性都是调整参数。由于我们正在使用数据来查找这些参数的最佳值,因此我们还需要根据数据估算这些参数。
那有什么区别呢?RF和Boosted Trees参数模型吗?