“样本内”和“伪样本外”预测之间的差异

样本内预测和伪样本外预测之间是否有明显的区别。两者都意味着评估和比较预测模型。

— 阿尔塔布
source

假设您有数据，其中并且您的目标是建立模型（例如，）在给定预测。为了具体起见，假设数据为每日，对应于今天。 $\{Y_t,X_{t-h}\}_{t=h+1}^T$ $h \in \{1,2,\ldots\},$ $\hat f(X_{t-h})$ $Y_t$ $X_{t-h}$ $T$

样本内分析意味着使用直到并包括所有可用数据来估计模型，然后将模型的拟合值与实际实现进行比较。但是，由于通用拟合算法（例如使用平方误差或似然准则）往往会为避免大的预测误差而费劲，并且容易受到过度拟合的影响-误认为噪声，因此已知该过程会对模型的预测能力产生过于乐观的印象用于数据中的信号。 $T$

真正的样本外分析将是基于直到今天（包括今天）的数据来估计模型，构建对明天值的预测，等到明天，记录预测误差重新估计模型，对进行新的预测，依此类推。在本练习的最后，将有一个预测误差样本，这实际上是样本外的，并且将给出一个非常逼真的图像模型的性能。 $Y_{T+1}$ $e_{T+1} \equiv Y_{T+1} - \hat f(X_{T+1-h}),$ $Y_{T+2}$ $\{e_{T+l}\}_{l=1}^L$

由于此过程非常耗时，因此人们经常诉诸于“伪”或“模拟”的样本外分析，这意味着使用某个历史日期来模仿上一段中描述的过程，而不是以今天的日期为起点。然后将所得的预测误差用来估算模型的样本外预测能力。 $T_0 < T$ $T$ $\{e_t\}_{t=T_0+1}^T$

请注意，伪样本外分析不是估计模型样本外性能的唯一方法。替代方法包括交叉验证和信息标准。

第7章对所有这些问题进行了很好的讨论。

http://www.stanford.edu/~hastie/local.ftp/Springer/OLD/ESLII_print4.pdf

— 法比安
source

PDF链接无效，但似乎是Tibshirani的免费在线书籍“统计学习的要素：数据挖掘，推理和预测”

— Oleg Melnikov