为什么不将Beta / Dirichlet回归视为广义线性模型?


26

前提是来自R封装betareg1小插图的报价。

此外,该模型与广义线性模型(GLM; McCullagh and Nelder 1989)具有一些共同的属性(例如线性预测变量,链接函数,色散参数),但这不是该框架的特殊情况(即使对于固定色散也不是) )

这个答案也暗示了这一事实:

[...]这是一种回归模型,当响应变量以Beta形式分发时适用。您可以将其视为 类似于广义线性模型。这正是您正在寻找的(重点是我的)

问题标题说明了一切:为什么不将Beta / Dirichlet回归视为广义线性模型(不是)?


据我所知,广义线性模型定义的模型建立在对期望变量的期望之上,这些期望变量以独立变量为条件。

f是链接函数的期望映射,g是概率分布,Y结果和X的predictiors,β是线性参数和σ2的方差。

f(E(YX))g(βX,Iσ2)

不同的GLM会强加(或放宽)均值和方差之间的关系,但是必须是指数族中的概率分布,这是一种理想的属性,如果我没有记错的话,应该可以提高估计的鲁棒性。但是,Beta和Dirichlet分布是指数族的一部分,所以我没有主意。g


[1] Cribari-Neto,F.和Zeileis,A.(2009)。R中的Beta回归。



@amoeba感谢您的链接,之前没有看过这个问题。
Firebug

2
aba=b=1μϕ

@CliffAB在阅读了下面Tim的回答下的注释后,似乎Beta的参数化导致参数的非正交性,这似乎是McCullagh-Nelder GLM的要求。
Firebug

1
我认为这是一个简短的答案:stats.stackexchange.com/a/18812/28666是相关的,并在此处增加了答案(这说明了为什么 GLM最初是用指数弥散族定义的)。
变形虫说莫妮卡(Reonica Monica)

Answers:


20

检查原始参考:

Ferrari,S.和Cribari-Neto,F.(2004)。Beta回归模型化率和比例。Journal of Applied Statistics,31(7),799-815。

如作者所述,重新参数化的beta分布的参数是相关的,因此

βϕ

因此,尽管模型看起来像GLM,而庸医像GLM,但它并不完全适合框架。


7
+1,但是有一个更详细的答案将是很棒的。我个人不理解报价(即使在打开链接的纸张之后)。为什么这些参数在beta回归中不正交?..为什么GLM需要此参数?..
阿米巴说Reinstate Monica

3
老实说,@ amoeba,我不是那种可以为您提供详细答案的人。我对GLM背后的理论从未有过如此浓厚的兴趣,以至于对这种微妙之处没有足够的了解。McCullagh和Nelder提到了这一要求,但是我需要查看他们的书以了解其确切的重要性。如果有人要详细解释为什么这是一个问题,我会考虑悬赏一笔。
蒂姆

9
g(μ)=xβϕ

3
@AchimZeileis我记得我在简历上看到了你的名字。你说的很合理。也许您想通过添加更多基本原理来将评论转换为答案?就像我说的那样,我很乐意为提供足够详细答案的人颁发赏金。
蒂姆

2
@Tim在我有更多时间时会尝试这样做。这就是为什么我认为快速评论总比没有强...
Achim Zeileis

8

@probabilityislogic的答案是正确的。

Beta分布在两个参数指数族中Nelder和Wedderburn(1972)描述的简单GLM模型并未包括两个参数指数族中的所有分布。

根据N&W的文章,GLM适用于以下类型的密度函数(后来在 Jørgensen1987中称为指数色散族):

π(z;θ,ϕ)=exp[α(ϕ){zθg(θ)+h(z)}+β(ϕ,z)]

f()θ=f(μ)=f(Xβ)


所以我们也可以重写上面的分布:

π(z;μ,ϕ)=exp[z(f(μ)α(ϕ))+h(z)α(ϕ)g(f(μ))α(ϕ)+β(ϕ,z)]

两个参数指数族为:

f(z;θ1,θ2)=exp[T1(z)η1(θ1,θ2)+T2(z)η2(θ1,θ2)g(θ1,θ2)+h(z)]

θ


区别很明显,并且不可能将beta分布以GLM的形式显示。

但是,我缺乏足够的理解力来创建一个更直观,更明智的答案(我感觉与各种基本原理之间可以有更深入,更优雅的关系)。GLM通过使用单变量指数色散模型代替最小二乘模型来泛化误差分布,并通过使用链接函数来泛化平均值中的线性关系。

α(ϕ)θθ


ϕπ(z;θ)

@amoeba beta是一个双指数家族分布,例如www2.stat.duke.edu/courses/Spring11/sta114/lec/expofam.pdf
蒂姆

2
我不确定即使固定的色散也不是完全可能的。至少不是按照N&W所说的那样(据我所知,很多人在解决beta回归问题上做的困难得多)。如果我们尝试遵循相同的迭代加权最小二乘路径,我将编辑答案以显示发生的情况以及错误的出处。
Sextus Empiricus

2
我已经对答案做了一些编辑。1)我对族和离散模型的最初描述不正确。GLM确实包含一个参数指数族的所有分布,因为它不仅是该密度函数,而且是链接函数。2)就更好的直观视图而言,我无法走远,也不希望很快走远。GLM模型以各种表示形式与经典模型相关,向拟合过程的矩阵公式,对数似然函数的导数(包括带有链接函数和方差的项)添加权重,..
Sextus Empiricus

2
我自由地编辑了您的答案,希望您做得好。而且,看起来像这个答案stats.stackexchange.com/a/18812/28666暗示了为什么N&W使用此特定发行版系列而不是更广泛的系列。
变形虫说莫妮卡(Reonica Monica)

2

我认为beta分布不是指数弥散族的一部分。为此,您需要具有密度

f(y;θ,τ)=exp(yθc(θ)τ+d(y,τ))

c()d()c(θ)τc(θ)θ

所述β分布不能被写入这种方式-看,这是通过注意到没有单程在对数似然术语-它有和代替ylog[y]log[1y]

fbeta(y;μ,ϕ)=exp(ϕμlog[y1y]+ϕlog[1y]log[B(ϕμ,ϕ(1μ)]log[y1y])

看到beta不是指数弥散族的另一种方法是,可以将其写为,其中和是独立的,并且都遵循具有相同比例参数(和gamma)的gamma分布。是指数家庭)。 xzy=xx+zxz


1
这个答案不正确。一种看待这种情况的方法是,根据提出的逻辑,例如,伯努利分布和二项式分布也不属于指数族。
红衣主教

2
抱歉,您是对的,我所举的例子是错误的。(警告:心算和CrossValidated的移动使用可能很危险!)但是,我的观点仍然成立。这个答案是不正确的,因为它选择了“指数族” 的非常狭义的“定义”概念,这比任何常规来源或实际用途都要狭窄得多。
红衣主教

2
嗯 维基百科确实在指数族分布列表中列出了 beta。
变形虫说莫妮卡

1
是的-我当时在考虑自然指数族 -这是一个特例
概率

1
函数中的参数也由链接函数描述,然后这个狭窄定义的分布函数变得更宽,包括一个参数指数族的所有分布,但只有两个参数指数族的一些分布。θ
Sextus Empiricus
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.