Answers:
简约模型是使用尽可能少的预测变量来实现所需解释或预测水平的模型。
对于模型评估,根据您想知道的内容,有不同的方法。通常有两种评估模型的方法:基于预测和基于对当前数据的拟合优度。在第一种情况下,您想知道模型是否充分预测了新数据,在第二种情况下,您想知道模型是否充分描述了当前数据中的关系。那是两件事。
评估用于预测的模型的最佳方法是交叉验证。很简单,您将数据集剪切到例如。10个不同的部分,使用其中9个来构建模型并预测第十个数据集的结果。观测值和预测值之间的简单均方差可为您提供预测精度的度量。当您重复十次时,您将计算所有十次迭代的均方差,得出具有标准偏差的一般值。这使您可以再次使用标准统计技术(t检验或ANOVA)比较两个模型的预测准确性。
主题的一种变体是PRESS标准(预测平方和),定义为
凡ÿ是使用基于所有观测减去第i个值模型中的第i个观察的预测值。如果您没有太多数据,则此标准特别有用。在这种情况下,像使用交叉验证方法那样拆分数据可能会导致数据子集过小而无法稳定拟合。
首先让我指出,这实际上取决于您使用的模型框架。例如,当使用经典高斯误差时,似然比检验可以适用于广义加性混合模型,但对于二项式变量,则无意义。
首先,您有比较直观的模型比较方法。您可以使用Aikake信息标准(AIC)或贝叶斯信息标准(BIC)比较两个模型的拟合优度。但是,没有什么可以告诉您这两种模式确实有所不同。
另一个是Mallow的Cp准则。通过将模型与所有可能的子模型(或仔细选择它们)进行比较,这实际上检查了模型中可能存在的偏差。另请参见http://www.public.iastate.edu/~mervyn/stat401/Other/mallows.pdf
如果要比较的模型是嵌套模型(即,更简约模型的所有预测变量和交互作用也出现在更完整的模型中),则可以使用似然比检验(或卡方)形式的形式比较或在适当情况下进行F检验,例如在比较使用最小二乘法拟合的简单线性模型时)。该测试从根本上控制了额外的预测变量或交互作用是否真正改善了模型。此标准通常用于前进或后退逐步方法中。
您有拥护者,也有这种方法的敌人。我个人不赞成自动选择模型,尤其是在描述模型时,尤其如此,这有很多原因:
因此,基本上,在比较预先选择的一组模型中,我会看到更多。如果您不关心模型的统计评估和假设检验,则可以使用交叉验证比较模型的预测准确性。
但是,如果您真的出于预测目的选择变量,则可能需要看看其他变量选择方法,例如支持向量机,神经网络,随机森林等。这些通常用于例如医学中,以找出千种被测量的蛋白质中的哪些可以充分预测您是否患有癌症。仅举一个(著名的)例子:
http://www.nature.com/nm/journal/v7/n6/abs/nm0601_673.html
http://www.springerlink.com/content/w68424066825vr3l/
所有这些方法对于连续数据也具有回归变量。
使用向后或向前选择是一种常见的策略,但我不推荐使用。这种模型构建的结果都是错误的。p值太低,系数偏离0偏置,还有其他相关问题。
如果必须执行自动变量选择,我建议使用更现代的方法,例如LASSO或LAR。
我为此写了一个SAS演示文稿,标题为“逐步停止:为什么逐步和类似方法不好,以及应该使用什么”
但是,如果可能的话,我会完全避免使用这些自动化方法,而要依靠主题专业知识。一种想法是生成10个左右的合理模型,并根据信息标准对它们进行比较。@Nick Sabbe在回应中列举了其中一些。
答案将很大程度上取决于您的目标。您可能正在寻找具有统计意义的系数,或者在预测新观察结果时可能要避免尽可能多的错误分类,或者您可能对误报最少的模型感兴趣;也许您只是想要最接近数据的曲线。
在上述任何情况下,您都需要某种针对您要寻找的度量。一些具有不同应用程序的流行度量是AUC,BIC,AIC,残留误差,...
您可以计算出最适合您每个模型目标的度量,然后比较每个模型的“得分”。这将为您的目标提供最佳模型。
其中一些措施(例如AIC)对模型中非零系数的数量施加了额外的压力,因为使用太多的系数可能只是过度拟合数据(因此,如果将模型用于新数据,则模型将无用,更不用说人口)。要求模型保留“尽可能少”的变量可能还有其他原因,例如,如果测量所有变量以进行预测只是非常昂贵。模型中的“简单性”或“少量变量”通常称为简约性。
简而言之,简约模型是一个“简单”模型,没有太多变量。
我发现这里的讨论很有趣,尤其是简约和模型之间的辩论,其中有更多的系数和变量。
我的教授 已故的史蒂夫(Steve)博士过去常常强调具有较低R ^ 2的简约模型,而不是具有更高拟合度/较大R ^ 2的其他模型。
谢谢这里所有的鱼!
阿卡什