了解AIC和Schwarz标准

我正在运行一个物流模型。实际的模型数据集具有100多个变量，但我选择的测试数据集中包含25个变量。在此之前，我还制作了一个具有8-9个变量的数据集。有人告诉我AIC和SC值可以用来比较模型。我观察到，即使变量的p值较低（例如0053），该模型的SC值也较高。据我的直觉，具有变量的显着性水平的模型应该导致较低的SC和AIC值。但这并没有发生。有人可以澄清一下吗？简而言之，我想问以下问题：

变量的数量与SC AIC有关系吗？
我应该专注于p值还是较低的SC AIC值？
降低SC AIC值的典型方法是什么？

model-selection logistic aic

— 阿尤什·比亚尼亚尼
source

Answers:

$-2\log(\ell)+2k$ $k$ $p$

我建议看一下惩罚回归，它允许执行变量选择以避免过度拟合的问题。弗兰克·哈雷尔（Frank Harrell）的回归建模策略（p.207 ff。）或Moons等人在《惩罚性最大似然估计以直接调整过度乐观的诊断和预测模型》中对此进行了讨论：《临床案例》，J Clin Epid（2004）57（ 12）。

另请参阅Design（lrm）和stepPlr（step.plr）R程序包或受罚程序包。您可以在此SE 上浏览有关变量选择的相关问题。

— hl
source

嗨，谢谢，谢谢。。我承认我从您的答复中得到了一些信息。.请允许我发表我的理解，然后您可以发表评论。（1）我得到的提示是，如果您的样本量很大，P值可能会下降...-是这样吗？以我的理解，p值只能显示我们的原假设是否被拒绝。（2）我现在了解到，我需要看到仅截距和协变量的AIC值存在差异。我想当我们说要降低AIC时，是指同一数据集。我的评论中剩下字符，因此一旦您回答，便会再次评论，

— ayush biyani 2010年

@ayush（1）测试统计量（例如Wald）取决于样本量（标准误差随着样本量的增加而减小，并且随着样本量的增加，您可能会获得较低的p值）。（2）是的，尽管可以使用AIC来比较非嵌套模型，但是我在这里将其视为比较复杂性不同的模型的一种方式。

— chl 2010年

再次感谢..我现在了解p值的实质。大约5分钟后，我运行了一个模型，该模型给我所有变量（但AIC为28238.407）的p值均低于.05，且仅具有截距且协变量为21507.933。我也有一种情况，其中AIC为16035.xy，仅具有截距，协变量为4234.xy。您比较这两种情况有何看法？请注意，第二个模型具有25 var的不同变量，而第一个模型具有20的变量，因此第二个模型具有更多的变量（25与20的比较）具有较低的AIC。虽然p值不是所有的0.05。请提出建议。之后再问更多。谢谢。

— ayush biyani

@ayush如果不知道如何选择变量，就很难回答有关模型质量的问题。仅包含截距和一些协变量的模型之间的AIC差距为您提供了这些预测变量的“解释力”的指示（在您显示的第二种情况下，残余偏差似乎在很大程度上减小了，而AIC对＃参数，如我在回应中所说）。这些预测因素的相关性绝不是一个完整的答案。我建议您提出一个更具体的问题（IMO），例如有关GLM中针对特定研究的变量选择。

— chl 2010年

将SC和AIC分组在一起是错误的。即使人们严重滥用它们，它们也是完全不同的事物。在预测事物时，AIC有意义，在这种情况下使用SC可能（并非始终）导致错误的结果。同样，如果您对使用简约原则（Occam的Razor）进行模型选择感兴趣，则SC更好。我不想讲理论上的细节，但总而言之：SC-适用于简约模型，当您想要等效于最简单的模型来解释您的数据时，AIC-当您想要预测时。AIC不像SC那样假定您的真实模型位于模型空间中。

其次，如chl所述，将p值和信息标准一起使用也会产生误导。

— 孙酷
source