我一直关注Kaggle比赛很久了,后来我意识到许多获胜策略涉及至少使用“三巨头”之一:装袋,助推和堆叠。
对于回归,而不是专注于建立一个可能的最佳回归模型,而是建立多个回归模型,例如(广义)线性回归,随机森林,KNN,NN和SVM回归模型,并以合理的方式将结果融合为一个-多次执行每种方法。
当然,对每种方法的扎实理解是关键,并且可以基于线性回归模型讲述直观的故事,但是我想知道这是否已成为最先进的方法论,以便获得最佳结果。
我一直关注Kaggle比赛很久了,后来我意识到许多获胜策略涉及至少使用“三巨头”之一:装袋,助推和堆叠。
对于回归,而不是专注于建立一个可能的最佳回归模型,而是建立多个回归模型,例如(广义)线性回归,随机森林,KNN,NN和SVM回归模型,并以合理的方式将结果融合为一个-多次执行每种方法。
当然,对每种方法的扎实理解是关键,并且可以基于线性回归模型讲述直观的故事,但是我想知道这是否已成为最先进的方法论,以便获得最佳结果。
Answers:
众所周知,至少从1960年代后期开始,如果您对多个预测†进行平均,那么在许多情况下所得到的总预测将胜过单个预测。套袋,升压和堆垛均完全基于此想法。因此,是的,如果您的目标仅仅是预测,那么在大多数情况下,这是您可以做到的最好的选择。这种方法的问题在于,它是一种黑盒方法,它返回结果,但无助于您理解和解释它。显然,与任何其他方法相比,它的计算强度也更大,因为您必须计算很少的预测而不是单个预测。
†这与总体上的任何预测有关,但是在预测文献中经常对此进行描述。
RL,温克勒。和Makridakis,S.(1983)。组合预测。 JR Statis。Soc。A. 146(2),150-157。
Makridakis,S.和Winkler,RL(1983)。预测平均值:一些经验结果。 管理科学,29(9)987-996。
克莱门,RT(1989)。合并预测:评论和带注释的书目。 国际预测杂志,第5卷,第 559-583页。
贝茨(JM)和格兰杰(CW)(1969)。组合预测。 或 451-468。
Makridakis,S.和Hibon,M.(2000)。M3竞赛:结果,结论和启示。 国际预测杂志,16(4),451-476。
里德(RJ)(1968)。结合国内生产总值的三个估计。经济学, 431-444。
Makridakis,S.,Spiliotis,E.和Assimakopoulos,V.(2018)。M4竞赛:结果,发现,结论和前进方向。国际预测杂志。
Arthur(1994)有一个很好的简短论文/思想实验,这在复杂性文献中是众所周知的。
结论之一是,在非平衡条件下,代理商无法选择更好的预测模型(即使他们拥有其中的“森林”)。例如,如果将问题应用于股票市场表现,则可能适用Arthur(1994)的设置。