我在该网站上阅读了无数帖子,这些帖子令人难以置信地反对使用任何类型的标准(无论是基于p值,AIC,BIC等)逐步选择变量。
我理解为什么这些程序通常比较笼统,而变量选择却很差。龚可能在这里著名的帖子清楚地说明了原因;最终,我们将在用于得出假设的同一数据集上验证假设,即数据挖掘。此外,p值还受共线性和离群值之类的量的影响,这些结果会严重偏斜等。
但是,最近我一直在研究时间序列预测,并且遇到了Hyndman备受推崇的教科书,他在这里提到使用逐步选择来找到ARIMA模型的最佳顺序。实际上,在forecast
R包中,众所周知auto.arima
的默认算法默认使用逐步选择(对于AIC,不是p值)。他还批评了基于p值的功能选择,该功能与该网站上的多个帖子非常吻合。
最终,如果目标是开发用于预测/预测的良好模型,则最终应始终以某种方式进行交叉验证。但是,在确定p值以外的评估指标的过程本身时,在这里肯定有一些分歧。
在这种情况下,或者在这种情况下,对于使用逐步式AIC,有人是否有任何意见?我被教导要相信任何逐步的选择都是不好的,但是老实说,auto.arima(stepwise = TRUE)
与样本相比,我给了我更好的结果,auto.arima(stepwise = FALSE)
但是也许这只是巧合。
预测人员可以达成共识的几件事之一是,选择一种“最佳”模型通常比组合多个不同模型的效果差。
—
S. Kolassa-恢复莫妮卡