如何检验线性回归中分类变量的统计显着性?


18

如果在线性回归中我有分类变量...我怎么知道分类变量的静态意义?

假设因子X1个有10个级别...在一个因子变量的保护下将有10个不同的最终t值X1...

在我看来,是否对因子变量的每个水平都进行了统计意义检验?没有?

@Macro:根据您的建议,我建立了以下示例:

通过下面的模型比较,似乎x3很有用,并且必须将其包括在模型中。

但是实际上那是错误的...

n=100    
x1=1:n
x2=(1:n)^2 
x3=rnorm(n)
ee=rnorm(n)
y=3*x1-2*x2+x3+3+ee
lm1=lm(y~x1+x2+x3)
summary(lm1)

lm2=lm(y~x1+x2) 
summary(lm2)

anova(lm1, lm2)

> anova(lm1, lm2)
Analysis of Variance Table

Model 1: y ~ x1 + x2 + x3
Model 2: y ~ x1 + x2
  Res.Df     RSS Df Sum of Sq      F    Pr(>F)    
1     96  82.782                                  
2     97 146.773 -1    -63.99 74.207 1.401e-13 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

1
@Luna,为什么会这样?看来您是用来x3生成ys的,所以应该将其包括在模型中,并且值与该结论一致。p
2012年

@Seth-你是对的。我只是给出一个在模型比较中通常使用方差分析的玩具示例。因此,它与我的原始问题无关。
露娜(Luna)

@Macro-你是对的。现在我明白了。谢谢!
露娜

R'car'包(pdf)中的'Anova'函数使您可以测试分类变量的整体含义。它适用于许多不同的软件包和回归类型。
SK4ndal '18年

Answers:


28

您是正确的,这些仅告诉您每个级别的均值是否与参考级别的均值显着不同。因此,它们仅告诉您级别之间的成对差异。从整体上检验分类预测变量是否有效,等同于检验预测变量水平的均值是否存在异质性。当模型中没有其他预测变量时,这就是经典的方差分析问题。p

模型中是否还有其他预测变量。您可以通过两种方法测试分类预测变量的重要性:

(1)所述的似然比检验:假设有一个结果,定量预测X 1X i p和具有k级的分类预测变量C i。没有分类预测变量的模型是ÿ一世X一世1个X一世pC一世ķ

ÿ一世=β0+β1个X一世1个++βpX一世p+ε一世

R你能适应这种模式与lm()命令和提取与对数似然logLik命令。称这种对数似然。接下来,您可以使用分类预测变量拟合模型:大号0

ÿ一世=β0+β1个X一世1个++βpX一世p+Ĵ=1个ķ-1个αĴĴ+ε一世

其中是一个虚拟变量,如果D i = j则为1,否则为0。第k个级别是参考级别,这就是为什么总和中只有k 1个项的原因。如果您将分类变量传递给,将自动为您执行此虚拟编码。您可以类似地拟合此模型,并如上所述提取对数可能性。将此称为对数似然L 1。然后,在D i没有影响的零假设下,Ĵ1个d一世=Ĵ0ķķ-1个Rlm()L1Di

λ=2(L1L0)

具有分布ķ - 1个自由度。因此,您可以使用in 来计算p值以检验其重要性。χ2k1p1-pchisq(2*(L1-L0),df=k-1)R

(2)检验:在这里F不做详细介绍(除了使用平方和而不是对数似然之外,其他细节与LRT相似),我将在中进行说明R。如果您在符合“全”模型(即模型与所有的预测,包括分类预测)R使用lm()命令(这个g1)和没有分类预测模型(这个g0),那么anova(g1,g0)将测试这个假说你也是。

注意:我在这里提到的两种方法都需要正常的错误。同样,似然比检验是用于嵌套比较的非常通用的工具,这就是我在这里提到它的原因(也是为什么它首先出现在我的身上),尽管检验在比较线性回归模型中更为熟悉。F


非常感谢Macro。我发现我的数据非常不正常。QQ图如下:曲线全部在45度直线下方。曲线与该直线相切。并且该曲线看起来像f(x)=-x ^ 2的曲线(按形状)。我要面对什么样的问题?我该如何解决呢?谢谢!
露娜(Luna)2012年

1
@Luna,您的数据高度非正常还是残差高度非正常?另外,我认为整个点都不可能位于45度线以下。
2012年

哦,您实际上是对的...我只是再看一遍QQ图。并不是整个角度都在45度线以下。形状为f(x)=-x ^ 2的曲线与45度线“相切”。我所说的“切线”应该是指“切线”点周围的那些点实际上在45度线以上,尽管非常微小。因此,从视觉上讲,大多数数据(〜98%)都在45度线以下...在进行模型比较之前,我应该首先解决该问题?谢谢!
露娜(Luna)

2
p

1
@ Druss2k,是的,这是正确的。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.