您所做的是逻辑回归。这基本上可以在任何统计软件中完成,并且输出将是相似的(至少在内容上,尽管表示形式可能有所不同)。有一个指南,其中R logistic回归于加州大学洛杉矶分校的优秀统计帮助网站。如果您不熟悉此方法,请在这里给出我的答案:logit模型和概率模型之间的差异,可能有助于您了解LR的含义(尽管它是在不同的上下文中编写的)。
您似乎提出了两种模型,我将主要关注头一种模型。此外,似乎一直在复制和粘贴模型或输出,所以我会换一个错误leaves.presence
与Area
输出,使其与模型相一致。这是我要引用的模型(我添加的注意(link="logit")
,这是隐含的family=binomial
;请参见?glm和?family):
glm(formula = leaves.presence ~ Area, family = binomial(link="logit"), data = n)
让我们看一下此输出(注意,我在的第二行中更改了变量的名称Coefficients
):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
正如有残差线性(OLS)回归,也可以在逻辑回归和其他广义线性模型的残差。但是,当响应变量不连续时,它们会更加复杂。GLiM可以具有五种不同类型的残差,但是列出的标准是偏差残差。(偏差和偏差残差更高级,因此在这里我将做简短介绍;如果此讨论有些难以遵循,则不必担心太多,可以跳过它):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
对于模型中使用的每个数据点,都会计算与该点关联的偏差。为每个点完成此操作后,您将获得一组此类残差,并且以上输出只是其分布的非参数描述。
接下来,我们将看到有关协变量的信息,这是人们通常最感兴趣的:
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
对于像这样的简单逻辑回归模型,只有一个协变量(Area
在此)和截距(有时也称为“常数”)。如果您有多个逻辑回归,则这些变量下面还会列出其他协变量,但是输出的解释将相同。下Estimate
在第二行中可与所列到左边的变量相关联的系数。这是估计的对数几率leaves.presence
会增加的估计值,如果Area
高出一个单位。leaves.presence
when Area
为对数几率刚好在第一行中。(如果您不太了解对数赔率,则可能会帮助您在此处阅读我的答案:对逻辑回归中简单预测与赔率之比的解释0。)在下一列中,我们将看到与这些估计值相关的标准误差。也就是说,它们是一个估算,如果重新进行相同的研究(但不断使用新数据),这些估算将平均反弹多少。(如果您对标准误差的概念不是很熟悉,它可能会帮助您在这里阅读我的答案:如何在线性回归中解释系数标准误差。)如果我们将估算值除以标准误差,我们将得到一个商,假定商正态分布,样本足够大。此值在中列出z value
。下面Pr(>|z|)
列出了两尾p值对应于标准正态分布中的这些z值。最后,还有传统意义的恒星(并注意系数表下方的键)。
Dispersion
默认情况下,该行是使用GLiM打印的,但此处未添加太多信息(例如,对于计数模型而言,这更为重要)。我们可以忽略这一点。
最后,我们获得有关模型及其拟合优度的信息:
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
关于这一行missingness
经常,嗯,不见了。在这里显示出来,因为你有314点的观测为此要么leaves.presence
,Area
或两者失踪。这些局部观察未用于拟合模型。
这Residual deviance
是对整个模型缺乏拟合的Null deviance
一种度量,而对于仅包括截距的简化模型则是这种度量。请注意,与这两个相关的自由度仅相差一个。由于您的模型只有一个协变量,因此仅估算了一个附加参数(Estimate
for Area
),因此仅消耗了一个附加自由度。这两个值可用于对模型进行整体测试,这类似于多重线性回归模型附带的全局检验。由于您只有一个协变量,因此在这种情况下,这种检验将变得毫无意义。 F
该AIC是拟合优度的另一项措施,考虑到模型的拟合数据的能力。当比较两个模型时,这可能非常有用,其中一个模型可能更适合,但可能仅是因为更具灵活性,因此能够更好地拟合任何数据。由于您只有一个模型,所以这是无用的。
对的引用Fisher scoring iterations
与模型的估算方式有关。线性模型可以通过求解闭式方程来拟合。不幸的是,包括逻辑回归在内的大多数GLiM都无法做到这一点。而是使用迭代方法(默认情况下为Newton-Raphson算法)。松散地,该模型基于对估计值可能的猜测而拟合。然后,该算法环顾四周,以查看是否可以通过使用其他估算值来提高拟合度。如果是这样,它将朝该方向移动(例如,使用较高的估计值),然后再次拟合模型。当算法无法感知到再次移动会带来很多额外的改进时,算法便会停止。此行告诉您在进程停止并输出结果之前进行了多少次迭代。
关于第二个模型并列出您的输出,这只是显示结果的另一种方式。具体来说,这些
Coefficients:
(Intercept) Areal
-0.3877697 0.0008166
是与上述讨论相同的估算值(尽管来自不同的模型,并且提供的补充信息较少)。