替代方案和逻辑回归之间在实践和解释上有什么区别?


Answers:


9

免责声明:当然,要完全回答这个问题还远远不够!

我认为在所有这些方法之间建立区别之前,至少要考虑两个级别:

  • 是否适合使用单个模型这有助于诸如Logistic回归,RF或Gradient Boosting(或更通常是Ensemble方法)之类的相反方法,并且还着重于参数估计(具有相关的渐近或自举置信区间)与分类或预测精度计算;
  • 是否考虑所有变量从某种意义上讲,这是特征选择的基础,因为惩罚或正则化可以处理“不规则”数据集(例如p 和/或小 ñ)并提高调查结果的概括性。

我认为与该问题相关的其他几点。

如果我们考虑多个模型-同一模型适合可用数据的不同子集(个体和/或变量),或者不同竞争模型适合同一数据集- 则可以使用交叉验证来避免尽管CV不限于此特定情况(例如,可以与GAM或惩罚性GLM 一起使用),但可以过度拟合并执行模型或特征选择。此外,还有一个传统的解释问题:更复杂的模型通常意味着更复杂的解释(更多参数,更严格的假设等)。

借助Boosting的主要思想是结合几种弱学习算法的输出以建立更准确,更稳定的决策规则,以及Bagging可以对结果进行“平均化”重新采样的数据集。与提供模型清晰规范的“经典”模型相比,它们通常被视为某种黑匣子(我可以想到三类模型:参数模型,半参数模型,非参数模型),但是我认为在另一种主题“两种文化:统计与机器学习”下进行的讨论提供有趣的观点。

这是有关特征选择和一些ML技术的几篇论文:

  1. Saeys,Y,Inza,I和Larrañaga,P。Bioinformatics中的特征选择技术综述,Bioinformatics(2007)23(19):2507-2517。
  2. Dougherty,ER,Hua J和Sima,C .特征选择方法的性能,《当前基因组学》(2009)10(6):365–374。
  3. Boulesteix,AL和Strobl,C. 最优分类器选择和错误率估计中的负偏差:高维预测的实证研究,BMC Medical Research Methodology(2009)9:85。
  4. Caruana,R和Niculescu-Mizil,A .监督学习算法的经验比较。第23届国际机器学习会议论文集(2006)。
  5. 弗里德曼,J,Hastie的,T和Tibshirani,R. 添加剂逻辑回归:升压的统计视图,安。统计员。(2000)28(2):337-407。(经讨论)
  6. 奥尔登(JD),劳勒(Jaw)和波夫(NL)。机器学习方法无泪:生态学家入门,Q Rev Biol。(2008)83(2):171-93。

当然,Hastie和coll。撰写的《统计学习的要素》中充斥着插图和参考资料。另外,请务必查看来自Andrew Moore 的《统计数据挖掘教程》

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.