这是最先进的回归方法吗?


33

我一直关注Kaggle比赛很久了,后来我意识到许多获胜策略涉及至少使用“三巨头”之一:装袋,助推和堆叠。

对于回归,而不是专注于建立一个可能的最佳回归模型,而是建立多个回归模型,例如(广义)线性回归,随机森林,KNN,NN和SVM回归模型,并以合理的方式将结果融合为一个-多次执行每种方法。

当然,对每种方法的扎实理解是关键,并且可以基于线性回归模型讲述直观的故事,但是我想知道这是否已成为最先进的方法论,以便获得最佳结果。


在某些情况下,神经网络很好地定义了进行回归的“经典”方式。例如,雨量II。但这绝对是一个黑匣子。
YCR

@YCR我同意这是一个黑匣子。在工作时,我建立了一个很棒的机器学习模型,并试图向商务人士或不熟悉该模型的人解释,对话通常最终是这样的:我建立了一个很棒的机器学习模型,它像魔术一样工作,但是我不能告诉你一个有趣的故事。
Maxareo '16

Answers:


41

众所周知,至少从1960年代后期开始,如果您对多个预测进行平均,那么在许多情况下所得到的总预测将胜过单个预测。套袋,升压和堆垛均完全基于此想法。因此,是的,如果您的目标仅仅是预测,那么在大多数情况下,这是您可以做到的最好的选择。这种方法的问题在于,它是一种黑盒方法,它返回结果,但无助于您理解和解释它。显然,与任何其他方法相比,它的计算强度也更大,因为您必须计算很少的预测而不是单个预测。

†这与总体上的任何预测有关,但是在预测文献中经常对此进行描述。


RL,温克勒。和Makridakis,S.(1983)。组合预测。 JR Statis。Soc。A. 146(2),150-157。

Makridakis,S.和Winkler,RL(1983)。预测平均值:一些经验结果。 管理科学,29(9)987-996。

克莱门,RT(1989)。合并预测:评论和带注释的书目。 国际预测杂志,第5卷,第 559-583页。

贝茨(JM)和格兰杰(CW)(1969)。组合预测。 451-468。

Makridakis,S.和Hibon,M.(2000)。M3竞赛:结果,结论和启示。 国际预测杂志,16(4),451-476。

里德(RJ)(1968)。结合国内生产总值的三个估计。经济学, 431-444。

Makridakis,S.,Spiliotis,E.和Assimakopoulos,V.(2018)。M4竞赛:结果,发现,结论和前进方向。国际预测杂志。


1
脚注中的链接似乎不适合我?
银鱼

@Silverfish谢谢,固定。该链接的重要性不大,但仍然无法正常工作。
蒂姆

0

Arthur(1994)有一个很好的简短论文/思想实验,这在复杂性文献中是众所周知的。

结论之一是,在非平衡条件下,代理商无法选择更好的预测模型(即使他们拥有其中的“森林”)。例如,如果将问题应用于股票市场表现,则可能适用Arthur(1994)的设置。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.