解释R的输出以进行二项式回归


38

对于二项式数据测试,我是一个新手,但需要做一个,现在我不确定如何解释结果。y变量(响应变量)是二项式的,解释因素是连续的。这是我总结结果时得到的:

glm(formula = leaves.presence ~ Area, family = binomial, data = n)

Deviance Residuals: 
Min      1Q  Median      3Q     Max  
-1.213  -1.044  -1.023   1.312   1.344  

Coefficients:
                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
leaves.presence        0.0008166  0.0002472   3.303 0.000956 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 
(Dispersion parameter for binomial family taken to be 1)

Null deviance: 16662  on 12237  degrees of freedom
Residual deviance: 16651  on 12236  degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4

我在这里没有很多事情,这实际上是在说什么:

                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
leaves.presence        0.0008166  0.0002472   3.303 0.000956 ***

AIC和Fisher评分迭代次数是什么意思?

> fit
Call:  glm(formula = Lövförekomst ~ Areal, family = binomial, data = n)

Coefficients:
(Intercept)        Areal  
-0.3877697    0.0008166  

Degrees of Freedom: 12237 Total (i.e. Null);  12236 Residual
(314 observations deleted due to missingness)
Null Deviance:      16660 
Residual Deviance: 16650        AIC: 16650

这是什么意思:

Coefficients:
(Intercept)        Areal  
-0.3877697    0.0008166 

6
由于您的问题非常广泛-“如何解释二项式回归?” -我建议选择关于该主题的介绍性文字。Agresti的“分类数据分析简介”非常容易上手。
恢复莫妮卡

2
这可能范围太广,无法在这里回答;正如@ user777所说,查阅良好的文本可能是有必要的。我同意Agresti很好。Hosmer&Lemeshow也不错。如果您想要简短而免费的内容(自我插入警报),请参阅我对逻辑回归的介绍,但这可能对您的需求来说太基础了。
彼得·弗洛姆

好的,谢谢您的快速解答,我将尝试Agresti并查看是否有帮助:)
user40116 2014年

4
我认为这个问题范围不广,无法回答。在我看来,它本质上是rs-lm-output解释的逻辑回归版本,一直被认为是话题性的。
gung-恢复莫妮卡

1
如果问题是关于解释R喷射到屏幕上的内容,那么我与@gung在一起。含糊之处是什么意思?如果OP高兴地被告知系数是模型的估计值,并且该值具有对数赔率的比例,则此Q可以。如果OP对此不满意,并且需要就数据,模型等方面对其含义进行解释,那么考虑到这只是几个要问的问题之一,那就太笼统了。
恢复莫妮卡-G.辛普森

Answers:


74

您所做的是逻辑回归。这基本上可以在任何统计软件中完成,并且输出将是相似的(至少在内容上,尽管表示形式可能有所不同)。有一个指南,其中R logistic回归于加州大学洛杉矶分校的优秀统计帮助网站。如果您不熟悉此方法,请在这里给出我的答案:logit模型和概率模型之间的差异,可能有助于您了解LR的含义(尽管它是在不同的上下文中编写的)。

您似乎提出了两种模型,我将主要关注头一种模型。此外,似乎一直在复制和粘贴模型或输出,所以我会换一个错误leaves.presenceArea输出,使其与模型相一致。这是我要引用的模型(我添加的注意(link="logit"),这是隐含的family=binomial;请参见?glm?family):

glm(formula = leaves.presence ~ Area, family = binomial(link="logit"), data = n)

让我们看一下此输出(注意,我在的第二行中更改了变量的名称Coefficients):

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.213  -1.044  -1.023   1.312   1.344  

Coefficients:
                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
Area                   0.0008166  0.0002472   3.303 0.000956 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 
(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 16662  on 12237  degrees of freedom
Residual deviance: 16651  on 12236  degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4

正如有残差线性(OLS)回归,也可以在逻辑回归和其他广义线性模型的残差。但是,当响应变量不连续时,它们会更加复杂。GLiM可以具有五种不同类型的残差,但是列出的标准是偏差残差。(偏差和偏差残差更高级,因此在这里我将做简短介绍;如果此讨论有些难以遵循,则不必担心太多,可以跳过它):

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.213  -1.044  -1.023   1.312   1.344  

对于模型中使用的每个数据点,都会计算与该点关联的偏差。为每个点完成此操作后,您将获得一组此类残差,并且以上输出只是其分布的非参数描述。


接下来,我们将看到有关协变量的信息,这是人们通常最感兴趣的:

Coefficients:
                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
Area                   0.0008166  0.0002472   3.303 0.000956 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

对于像这样的简单逻辑回归模型,只有一个协变量(Area在此)和截距(有时也称为“常数”)。如果您有多个逻辑回归,则这些变量下面还会列出其他协变量,但是输出的解释将相同。下Estimate在第二行中可与所列到左边的变量相关联的系数。这是估计的对数几率leaves.presence会增加的估计值,如果Area高出一个单位。leaves.presencewhen Area为对数几率刚好在第一行中。(如果您不太了解对数赔率,则可能会帮助您在此处阅读我的答案:对逻辑回归中简单预测与赔率之比的解释0。)在下一列中,我们将看到与这些估计值相关的标准误差。也就是说,它们是一个估算,如果重新进行相同的研究(但不断使用新数据),这些估算将平均反弹多少。(如果您对标准误差的概念不是很熟悉,它可能会帮助您在这里阅读我的答案:如何在线性回归中解释系数标准误差。)如果我们将估算值除以标准误差,我们将得到一个商,假定商正态分布,样本足够大。此值在中列出z value。下面Pr(>|z|)列出了两尾p值对应于标准正态分布中的这些z值。最后,还有传统意义的恒星(并注意系数表下方的键)。


Dispersion默认情况下,该行是使用GLiM打印的,但此处未添加太多信息(例如,对于计数模型而言,这更为重要)。我们可以忽略这一点。


最后,我们获得有关模型及其拟合优度的信息:

    Null deviance: 16662  on 12237  degrees of freedom
Residual deviance: 16651  on 12236  degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4

关于这一行missingness经常,嗯,不见了。在这里显示出来,因为你有314点的观测为此要么leaves.presenceArea或两者失踪。这些局部观察未用于拟合模型。

Residual deviance是对整个模型缺乏拟合的Null deviance一种度量,而对于仅包括截距的简化模型则是这种度量。请注意,与这两个相关的自由度仅相差一个。由于您的模型只有一个协变量,因此仅估算了一个附加参数(Estimatefor Area),因此仅消耗了一个附加自由度。这两个值可用于对模型进行整体测试,这类似于多重线性回归模型附带的全局检验。由于您只有一个协变量,因此在这种情况下,这种检验将变得毫无意义。 F

AIC是拟合优度的另一项措施,考虑到模型的拟合数据的能力。当比较两个模型时,这可能非常有用,其中一个模型可能更适合,但可能仅是因为更具灵活性,因此能够更好地拟合任何数据。由于您只有一个模型,所以这是无用的。

对的引用Fisher scoring iterations与模型的估算方式有关。线性模型可以通过求解闭式方程来拟合。不幸的是,包括逻辑回归在内的大多数GLiM都无法做到这一点。而是使用迭代方法(默认情况下为Newton-Raphson算法)。松散地,该模型基于对估计值可能的猜测而拟合。然后,该算法环顾四周,以查看是否可以通过使用其他估算值来提高拟合度。如果是这样,它将朝该方向移动(例如,使用较高的估计值),然后再次拟合模型。当算法无法感知到再次移动会带来很多额外的改进时,算法便会停止。此行告诉您在进程停止并输出结果之前进行了多少次迭代。



关于第二个模型并列出您的输出,这只是显示结果的另一种方式。具体来说,这些

Coefficients:
(Intercept)       Areal  
-0.3877697    0.0008166

是与上述讨论相同的估算值(尽管来自不同的模型,并且提供的补充信息较少)。


1

调用:这只是您对函数进行的调用。这将是您在R中键入的完全相同的代码。这对于查看您是否输入了错字可能会有所帮助。

(差异)残差:您几乎可以忽略这些以进行逻辑回归。对于泊松或线性回归,您希望它们大致呈正态分布(与前两个诊断图相同)。您可以通过查看1Q和3Q的绝对值是否彼此接近,以及中位数是否接近0来进行检查。均值始终为0,因此不显示均值。您的数据可能有一些怪异的偏斜。(这也将显示在您的诊断图中!)

系数:这是输出的基础。

  • 截距:对于泊松和线性回归,这是所预测的输出时我们所有的输入为0。对于逻辑回归,此值将是从0更远的更大的每一类观测数目之间的差。该标准误差表示我们对此有多不确定(越低越好)。在这种情况下,因为我们的截距远非0,并且我们的标准误比截距小得多,所以我们可以肯定的是,其中一个类(失败或未失败)包含更多的观察值。(在这种情况下,这是“没有失败”,谢天谢地!)

  • 各种输入(每个输入将在不同的行上):此估计值表示我们认为每次将输入增加1时,输出将改变多少。估计值越大,此输入变量对输出的影响越大。标准错误是我们对此有多确定。通常,我们可以肯定输入是信息性的,标准误是估计的1/10。因此,在这种情况下,我们可以肯定拦截非常重要。

  • 签名 代码:这是每个:input和intercept重要性的关键。仅当您仅将一种模型适合您的数据时,这些才是正确的。(换句话说,如果您从一开始就对哪些变量感兴趣,而不是为数据分析或变量选择提供信息,那么它们就非常适合用于实验数据。)

    等等,为什么我们不能使用统计意义?您可以,但我一般不会推荐它。在数据科学中,您通常会使用同一数据集来拟合多个模型,以尝试选择最佳模型。如果您在同一数据集上运行了一项以上的统计显着性检验,则需要调整p值以弥补这一问题。您可以这样考虑:如果您决定接受小于p = 0.05的结果,则基本上是在说您错在二十次的错误中就可以了。但是,如果您随后进行了五项测试,并且每项测试都有错的机会是1/20,那么现在至少有一项测试有1/4的机会出错了……但是您不知道是哪一个。您可以对其进行纠正(通过将您将接受的p值乘以您将执行的测试数量),但是实际上,我发现避免完全使用p值通常更容易。

(将二项式族的色散参数设为1):您只会在泊松和二项式(逻辑)回归中看到此参数。只是让您知道添加了额外的缩放参数以帮助拟合模型。您可以忽略它。

零偏差:零偏差告诉我们仅使用截距可以很好地预测输出。越小越好。

残余偏差:残余偏差告诉我们使用截距和输入可以很好地预测输出。越小越好。零偏差和残差之间的差异越大,我们的输入变量对预测输出变量的帮助就越大。

AIC: AIC是“赤池信息准则”,它是对模型描述数据模式的程度的估计。它主要用于比较在相同数据集上训练的模型。如果需要在模型之间进行选择,则具有较低AIC的模型可以更好地描述数据差异。

Fisher计分迭代的次数:这仅是模型拟合所需时间的度量。您可以放心地忽略它。

我建议您在此学习更多。 https://www.kaggle.com/rtatman/regression-challenge-day-5

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.