如何在GLM中解释拦截项?


20

我正在使用R,并且一直在使用具有二项式链接的GLM分析数据。

我想知道输出表中拦截的含义是什么。我的一个模型的截距明显不同,但是变量没有。这是什么意思?

什么是拦截。我不知道我是否只是在迷惑自己,而是在互联网上搜索,没有什么可说的,就是这样,注意它...还是不。

请帮助,一个非常沮丧的学生


glm(formula = attacked_excluding_app ~ treatment, family = binomial, 
    data = data)
Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.3548   0.3593   0.3593   0.3593   0.3593  
Coefficients:
                         Estimate Std. Error z value Pr(>|z|)   
(Intercept)                 2.708      1.033   2.622  0.00874 **
treatmentshiny_non-shiny    0.000      1.461   0.000  1.00000

(Dispersion parameter for binomial family taken to be 1)
Null deviance: 14.963  on 31  degrees of freedom
Residual deviance: 14.963  on 30  degrees of freedom
(15 observations deleted due to missingness)
AIC: 18.963
Number of Fisher Scoring iterations: 5

1
您在glm中指定的链接函数是什么?
Tomas 2013年

5
当所有自变量均为0时,截距是因变量的预测值。如果没有有关模型的更多信息,则无法确定这对您而言是否有意义。
彼得·弗洛姆

Answers:


21

截距项是GLM方程线性部分中的截距,因此您的均值模型为,其中是链接函数,是您的线性模型。该线性模型包含一个“拦截项”,即:Ë[ÿ]=G-1个XβGXβ

Xβ=C+X1个β1个+X2β2+

在您的情况下,截距明显为非零,但变量不是,因此这就是说

Xβ=C0

由于您的链接函数是二项式的,因此

Gμ=lnμ1个-μ

因此,仅使用截距项,您的均值拟合模型为:

Ë[ÿ]=1个1个+Ë-C

您可以看到,如果那么这仅对应于50:50的机会获得Y = 1或0,即E [ Y ] = 1C=0Ë[ÿ]=1个1个+1个=0.5

因此,您的结果表明您无法预测结果,但是一个类别(1或0)比另一个类别更有可能。


2
您在E [Y] = .... :)吓到我了。谢谢您的回覆,我很了解您的意思。您说截距是信号。非零,但var。不是,是p = 1.00 !?p值变量对我所说的结果有什么影响?
塞缪尔·沃尔登

2
如果变量p值不小,则该变量通常不会在模型中包含该变量。在您的情况下,甚至不会估计该变量具有非零值,因此p值为1.00。基本上,“处理”和“ attacked_exception_app”之间没有关系。在这里,没有关系是如此完美,以至于几乎是可疑的,尽管您的数据集很小。可能需要可视化您的数据,并查看它是否合理。
Corone 2013年

2
尽管我不同意您的评论开头:“如果变量p值不小,则通常不会在该变量中包含该变量,但可以+1来回答(并在注释中暗示数据集中发生了奇怪的情况)。模型。” 不一定是这样-经常有人要报告关系的大小,即使它不是“重要的”(更重要的是,如果您有兴趣对建立关系的建模感兴趣,那么结果为空)仍然非常重要。)
James Stanley

1
@James-非常好,一个人应该始终报告您测试了哪些变量-我应该更清楚一些,我的意思只是说,在尝试使用模型进行预测时,通常不包括该变量(因为这通常意味着过度拟合) )。
Corone

@Corone -我格外感兴趣,您的意见在这里关于/排除变量,其在相对于螺纹stats.stackexchange.com/questions/17624/...
rolando2

5

在我看来,数据可能存在一些问题。系数的参数估计值为0.000是奇怪的。看起来您的DV和IV都是二分的,并且DV的比例根本不会随IV的变化而变化。这是正确的吗?

正如我在评论中指出的(和@corone的答案所暗示的),截距是IV为0时DV的值。IV的编码方式是什么?虽然如此,但是系数的估计值为0.000的事实意味着IV没什么区别。

日志p1个-p


大家好,再次感谢您的评论。数据点几乎相同。我正在报告中报告它,但仍必须突出显示它。这就是为什么结果看起来很奇怪的原因。有了此数据(GLM)和报告(GLMM)中的其他数据集,我就可以正常行走(#TEAM2x2x2x2),然后才能走路。我认为我的主要问题是知道我需要举报什么,我是否应该统计拦截数据或IV数据?下面是我的(希望是更标准的)GLMM,具有二项式链接。
塞缪尔·沃尔德隆

通过Laplace近似公式拟合的广义线性混合模型:攻击〜治疗+试验+治疗*试验+(1 |鸟)数据:数据AIC BIC logLik偏差139.6 153.8 -64.78 129.6随机效应:组名方差标准偏差。伯德(拦截)0.87795 0.93699观察员人数:128,组:伯德,32
塞缪尔·

固定效果:估算标准。误差z值Pr(> | z |)(拦截)3.19504 0.90446 3.533 .000412 ***处理shiny_non-shiny 0.02617 1.26964 0.021 .983558试用-1.53​​880 0.36705 -4.192 2.76e-05 ***处理:试用0.16909 0.49501 0.342 .732655 --- Signif。代码:0 ' ' 0.001 ' ' 0.01 ' ' 0.05 ''。0.1''1固定效应的相关性:(Intr)Trtm_-试用Trtmntshn_- -0.712试用-0.895 0.638 Trtmnts _-:T 0.664 -0.896 -0.742
Samuel Waldron

3

在您的情况下,截距是的均值attacked_excluding_app,不考虑而是针对所有数据计算得出treatment。系数表中的显着性检验是检验其是否显着不同于零。这是否相关取决于您是否有先验的理由期望它为零。

例如,假设您已经测试了一种药物和安慰剂对血压的影响。对于每个受试者,您可以通过计算(治疗后的压力-治疗前的压力)记录其血压变化,并将其作为分析中的因变量。然后,您发现治疗效果(药物与安慰剂)无关紧要,但截距明显大于0-这将告诉您,平均而言,受试者的血压在两次测量之间增加。这可能很有趣,需要进一步调查。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.