逻辑回归:伯努利与二项式响应变量


32

我想使用以下二项式响应并以和作为预测因子进行逻辑回归。 X1个X2

在此处输入图片说明

我可以采用以下格式提供与伯努利回复相同的数据。

在此处输入图片说明

逻辑回归输出用于这2个数据集是大多相同的。偏差残差和AIC不同。(两种情况下零偏差和残余偏差之间的差异相同,为0.228。)

以下是R的回归输出。这些数据集称为binom.data和bern.data。

这是二项式输出。

Call:
glm(formula = cbind(Successes, Trials - Successes) ~ X1 + X2, 
    family = binomial, data = binom.data)

Deviance Residuals: 
[1]  0  0  0

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  -2.9649    21.6072  -0.137    0.891
X1Yes        -0.1897     2.5290  -0.075    0.940
X2            0.3596     1.9094   0.188    0.851

(Dispersion parameter for binomial family taken to be 1)

Null deviance:  2.2846e-01  on 2  degrees of freedom
Residual deviance: -4.9328e-32  on 0  degrees of freedom
AIC: 11.473

Number of Fisher Scoring iterations: 4

这是伯努利输出。

Call:
glm(formula = Success ~ X1 + X2, family = binomial, data = bern.data)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.6651  -1.3537   0.7585   0.9281   1.0108  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  -2.9649    21.6072  -0.137    0.891
X1Yes        -0.1897     2.5290  -0.075    0.940
X2            0.3596     1.9094   0.188    0.851

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 15.276  on 11  degrees of freedom
Residual deviance: 15.048  on  9  degrees of freedom
AIC: 21.048

Number of Fisher Scoring iterations: 4

我的问题:

1)我看到在这种特殊情况下,两种方法之间的点估计和标准误差是等效的。一般而言,这种等效性正确吗?

2)如何从数学上证明问题1的答案合理?

3)偏差残差和AIC为什么不同?

Answers:


24

1)是的。您可以汇总/解集具有相同协变量的个人的二项式数据。这是因为二项式模型的充分统计量是每个协变量向量的事件总数;伯努利只是二项式的特例。直观上,每项构成二项式结果的伯努利试验都是独立的,因此将这些结果计为单个结果或单独的单独试验之间应该没有区别。

2)假设我们有独特协变量矢量X 1X 2... X Ñ,每一个都具有上的二项式结果Ñ 试验,即 ÿ ÑÑ p 您已指定逻辑回归模型,因此 ö p = ķ Σ ķ = 1 β ķ X ķñx1,x2,,xnNi

YiBin(Ni,pi)
logit(pi)=k=1Kβkxiķ
尽管我们稍后会看到这并不重要。

此模型的对数似然度为 并相对于(以项表示)将其最大化,以获取参数估算值。βp

β;ÿ=一世=1个ñ日志ñ一世ÿ一世+ÿ一世日志p一世+ñ一世-ÿ一世日志1个-p一世
βp一世

现在,考虑到对于每个,就像您所做的那样,我们将二项式结果分成单独的伯努利/二进制结果。具体来说,创建 即,第一个为1,其余为0。这正是您所做的-但您可以将第一个设为0,其余的设为1,或者其他任何顺序,对吗?一世=1个ññ一世

ž一世1个ž一世ÿ一世=1个
ž一世ÿ一世+1个ž一世ñ一世=0
ÿ一世ñ一世-ÿ一世

您的第二个模型说 具有与上面相同的回归模型。此模型的对数似然度为 ,由于我们定义的方式,可以简化为 应该看起来很熟悉。

ž一世ĴË[RñØü一世p一世
p一世
β;ž=一世=1个ñĴ=1个ñ一世ž一世Ĵ日志p一世+1个-ž一世Ĵ日志1个-p一世
ž一世Ĵ
β;ÿ=一世=1个ñÿ一世日志p一世+ñ一世-ÿ一世日志1个-p一世

为了获得第二个模型中的估计值,我们相对于最大化了。此与第一个对数似然之间的唯一区别是术语,它相对于是恒定的,因此不会影响最大化,因此我们将获得相同的估计值。β日志ñ一世ÿ一世β

3)每个观测值都有一个偏差残差。在二项式模型中,它们是 其中是根据模型估算的概率。请注意,您的二项式模型是饱和的(0个剩余自由度),并且具有完美的拟合度:对于所有观测值,因此对于所有。

d一世=2[ÿ一世日志ÿ一世/ñ一世p^一世+ñ一世-ÿ一世日志1个-ÿ一世/ñ一世1个-p^一世]
p^一世p^一世=ÿ一世/ñ一世d一世=0一世

在Bernoulli模型中, 除了您现在拥有的事实偏差残差(而不是二项式数据中的),每个残差将为 或 取决于还是,并且显然与上述不同。即使您将这些总和乘以以获得每个的偏差残差之和,您也不会得到相同的结果:

d一世Ĵ=2[ž一世Ĵ日志ž一世Ĵp^一世+1个-ž一世Ĵ日志1个-ž一世Ĵ1个-p^一世]
一世=1个ññ一世ñ
d一世Ĵ=-2日志p^一世
d一世Ĵ=-2日志1个-p^一世
ž一世Ĵ=1个0Ĵ一世
d一世=Ĵ=1个ñ一世d一世Ĵ=2[ÿ一世日志1个p^一世+ñ一世-ÿ一世日志1个1个-p^一世]

AIC是不同的(但偏差的变化没有变化)这一事实回到了常数项,即两个模型的对数似然之间的差异。在计算偏差时,由于在所有基于相同数据的模型中都相同,因此将其抵消。AIC定义为 ,并且组合项是之间的差:

一种一世C=2ķ-2

一种一世CË[RñØü一世-一种一世C一世ñØ一世一种=2一世=1个ñ日志ñ一世ÿ一世=9.575

谢谢您的详细答复,马克!很抱歉延迟回复-我正在休假。3)鉴于这两种模型对偏差残差和AIC给出了不同的结果,哪个模型正确或更佳?a)据我了解,偏差残差超过2的观测值可能表明缺乏拟合,因此偏差残差的绝对值很重要。b)由于AIC用于比较不同模型之间的拟合,因此可能没有“正确的” AIC。我只是比较2个二项式模型或2个Bernoulli模型的AIC。
一位科学家

a)对于二进制数据,如果(且)或(,则将> 2 和)。因此,即使您的模型完全适合第个协变量向量的二项式数据(即,例如),那么您随意分配的 1将具有。因此,我认为偏差残差对于二项式数据更有意义。此外,二进制数据的偏差本身没有通常的属性……d一世Ĵž一世Ĵ=1个p^一世<Ë-1个=0.368ž一世Ĵ=0p^一世>1个-Ë-1个=0.632一世ÿ一世/ñ一世=p^一世<0.368ÿ一世 ž一世Ĵd一世Ĵ>2
Mark


1
b)是,仅当用于拟合每个模型的数据完全相同时,才比较模型之间的才有意义。因此,将伯努利与伯努利或二项式与二项式进行比较。一种一世C
标记

谢谢,马克!感谢您的周到和详尽的回复!
一位科学家

0

我只想对最后一段发表评论,“ AIC有所不同(但偏差有所不同)这一事实可以追溯到不变的术语,即两个模型的对数似然之间的差异。在计算偏差变化时,由于所有模型基于相同的数据都相同,因此将其抵消。”不幸的是,这对于偏差变化是不正确的。偏差不包括常数项Ex(额外常数)二项式数据的对数似然项中的项)。因此,偏差的变化与常数项EX无关。偏差将给定模型与完整模型进行比较。偏差与贝努利/二进制不同和二项式建模,但偏差的变化不是由于完整模型对数似然值的差异所致。这些值在计算偏差变化时被抵消。因此,如果预测概率pij和pi相同,则伯努利和二项式Logistic回归模型会产生相同的偏差变化。实际上,这对于Probit和其他链接功能是正确的。

令lBm和lBf表示从拟合模型m和完整模型f到伯努利数据的对数似然值。那就是偏差

    DB=2(lBf - lBm)=-2(lBm – lBf).

尽管对于二进制数据,lBf为零,但我们并未简化DB并将其保持不变。具有相同协变量的二项式建模的偏差为

    Db=2(lbf+Ex – (lbm+Ex))=2(lbf – lbm) = -2(lbm – lbf)

其中lbf + Ex和lbm + Ex是拟合二项式数据的完整模型和m模型的对数似然值。多余的常数项(Ex)从Db的右侧消失。现在来看一下从模型1到模型2的偏差变化。从伯努利模型中,我们有偏差的变化。

    DBC=DB2-DB1=2(lBf – lBm2)-2(lBf – lBm1) =2(lBm1 – lBm2).

同样,与二项式拟合的偏差变化为

    DbC=DB2-DB1=2(lbf – lbm2)-2(lbf – lbm1) =2(lbm1 – lbm2).

可以立即得出,偏差变化不受完整模型lBf和lbf对数似然性的影响。因此,如果lBm1 = lbm1和lBm2 = lbm2,我们将获得相同的偏差变化,DBC = DbC。我们知道这里就是这种情况,这就是为什么我们从伯努利模型和二项式模型中得到相同的偏差。lbf和lBf之间的差异导致不同的偏差。


6
您可能会编辑答案的格式吗?不幸的是,这种形式的可读性不高。我鼓励您制动段落中的文本,并将格式添加到公式中。也不一定总是清楚您使用的缩写是什么意思。ŤËX
蒂姆

蒂姆,非常感谢。我对TEX格式不熟悉。我最初输入的是Word,但无法复制和粘贴。我已经从文本中分离出方程式。
Saei 2016年

我不确定您是否误读了该段落:我说过“ AIC是不同的(但偏差的变化不是)”,该段落的其余部分解释了为什么两个模型之间的AIC不同。我并不是说偏差的变化取决于常数。实际上,我说过“ 在计算偏差变化时,此[常数项]被抵消了,因为所有模型基于相同的数据都相同
马克

问题是文本中只有一个“常数项”,它是组合项(二项式系数)。当您说“ this”被抵消时,表示常数项包含在偏差中。Bernoulli模型和二项式模型的偏差之间的差异是整个模型的对数似然值lbf的贡献。lbf不会因相同数据的不同二项式模型而有所不同,并且在计算偏差变化时会被抵消。
Saei 2016年

好的,我明白你的意思了。我已经相应地编辑了我的答案,没有提及偏差的变化,因为提问者特别提到了它。偏差的变化是相同的,因为偏差不取决于常数项。
2016年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.