R中的逐步回归-临界p值

step()R中的函数用于逐步回归的临界p值是多少？我认为是0.15，但是我的假设正确吗？如何更改临界p值？

r regression p-value stepwise-regression

— 杰森·塞缪尔（Jason Samuels）
source

R的“步进”功能基于AIC。

— Michael M

最好不要完全使用逐步模型选择例程。要了解原因，可以帮助您在此处阅读我的答案：自动模型选择算法。

— gung-恢复莫妮卡

除了@MichaelMayer的评论之外：Description帮助页面?step的整个内容还包括：通过AIC选择基于公式的模型。

— Stephan Kolassa，2014年

正如我在对另一个问题的评论中所解释的那样，请step使用AIC而不是p值。

但是，对于一次单个变量，AIC 确实对应于使用0.15（或更准确地说是0.1573）的p值：

考虑比较两个模型，这两个模型的区别在于单个变量。将模型称为（较小的模型）和（较大的模型），并将它们的AIC分别设为和。 $\cal{M}_0$ $\cal{M}_1$ $\text{AIC}_0$ $\text{AIC}_1$

使用AIC标准，如果，则可以使用较大的模型。如果。 $\text{AIC}_1<\text{AIC}_0$ $-2\log\cal{L_0}-(-2\log\cal{L_1})>2$

但这仅仅是似然比检验中的统计数据。根据Wilks定理，如果统计量超过的上限分位数，我们将拒绝null 。因此，如果使用假设检验在较小模型和较大模型之间进行选择，则当时，我们选择较大模型。 $\alpha$ $\chi^2_1$ $-2\log\cal{L_0}-(-2\log\cal{L_1})>C_\alpha$

现在位于的84.27个百分位数处。因此，如果我们在AIC较小的情况下选择较大的模型，则对应于拒绝零假设以检验p值为或的附加项 $2$ $\chi^2_1$ $1-0.843=0.157$ $15.7\%$

那么如何修改它呢？

简单。将k参数step从2 更改为其他值。您要换10％吗？设为2.7：

qchisq(0.10,1,lower.tail=FALSE)
[1] 2.705543

要2.5％吗设置k=5：

qchisq(0.025,1,lower.tail=FALSE)
[1] 5.023886

等等。

但是，即使这解决了您的问题，我还是建议您密切注意弗兰克·哈雷尔（Frank Harrell）对您的其他问题的回答，并在此搜索许多统计学家对与逐步回归有关的其他问题的回答，该建议往往非常有用。始终避免一般地逐步执行程序。

— Glen_b-恢复莫妮卡
source

很好的解释。您知道对于普通回归t检验的p值是否大致成立？

— Ben Ogorek

对不起，本，我不确定100％的含义是“这个”。您是在说“我可以使用上面的方法演示如何在10％和2.5％的条件下进行5％的测试吗？” 如果是这样，答案是“很明显，是” ...但是最后一句话-指出，即使您看起来像在某种名义水平上进行测试，实际的 I类错误率也不像它们的名义值。。换句话说，您可以计算要使用的值，它应该等效于逐步设置为 ...，但实际显着性水平仍不会是5％。那只是...（ctd）

α = 0.05

$\alpha=0.05$

— Glen_b-恢复莫妮卡2014年

（ctd）...逐步出现的一系列严重问题。其他包括偏差估计和标准误差都太小。

— Glen_b-恢复莫妮卡2014年

我暂时不考虑逐步模型选择的问题，我有兴趣推广较小的AIC => .1573 p值规则。您描述的似然比p值很好，但是在像R的lm这样的例程中，估计值/std.err与t分布进行了比较。这是一个不同的测试，我想知道您的.1573结果是否大致成立。

— Ben Ogorek

本：是的，.1573是渐近的（基于正常；仅会近似正确）。我认为您可以计算出对应于stepAIC的p值，因为它仅取决于问题的自由度（例如，我认为200 df为0.1579）；结果，您应该可以退出所需的。@Nick这是最有趣的。乍一看，我认为计算之间没有直接联系-它们计算的是相同数量，但是出于不同的原因。

t

$t$

k

$k$

— Glen_b-恢复莫妮卡2014年

如上所述，stepR中的功能基于AIC标准。但是我想用p值表示您要输入的alpha和要离开的alpha。您可以做的就是使用stepwisePaul Rubin编写的功能，该功能在此处提供。如您所见，您具有可以更改的alpha.to.enter和alpha.to.leave参数。请注意，此功能使用F检验或等效的t检验来选择模型。此外，如果正确定义参数，它不仅可以处理逐步回归，还可以处理正向选择和向后消除。

— 统计
source