关于R中逻辑回归的替代方法的最新问题产生了多种答案,包括randomForest,gbm,rpart,bayesglm和广义加性模型。这些方法和逻辑回归之间在实践和解释上有什么区别?他们相对于逻辑回归做出(或不做出)什么假设?是否适合假设检验?等等。
关于R中逻辑回归的替代方法的最新问题产生了多种答案,包括randomForest,gbm,rpart,bayesglm和广义加性模型。这些方法和逻辑回归之间在实践和解释上有什么区别?他们相对于逻辑回归做出(或不做出)什么假设?是否适合假设检验?等等。
Answers:
免责声明:当然,要完全回答这个问题还远远不够!
我认为在所有这些方法之间建立区别之前,至少要考虑两个级别:
我认为与该问题相关的其他几点。
如果我们考虑多个模型-同一模型适合可用数据的不同子集(个体和/或变量),或者不同竞争模型适合同一数据集- 则可以使用交叉验证来避免尽管CV不限于此特定情况(例如,可以与GAM或惩罚性GLM 一起使用),但可以过度拟合并执行模型或特征选择。此外,还有一个传统的解释问题:更复杂的模型通常意味着更复杂的解释(更多参数,更严格的假设等)。
借助Boosting的主要思想是结合几种弱学习算法的输出以建立更准确,更稳定的决策规则,以及Bagging可以对结果进行“平均化”重新采样的数据集。与提供模型清晰规范的“经典”模型相比,它们通常被视为某种黑匣子(我可以想到三类模型:参数模型,半参数模型,非参数模型),但是我认为在另一种主题“两种文化:统计与机器学习”下进行的讨论?提供有趣的观点。
这是有关特征选择和一些ML技术的几篇论文:
当然,Hastie和coll。撰写的《统计学习的要素》中充斥着插图和参考资料。另外,请务必查看来自Andrew Moore 的《统计数据挖掘教程》。