为什么β分布密度函数为-1?


18

Beta分布出现在两个参数设置下(或在此处

f(x)xα(1x)β

f(x)xα(1x)β(1)

或似乎更常用的一种

f(x)xα1(1x)β1

f(x)xα1(1x)β1(2)

但是,为什么第二个公式中确切有“ ”呢?11

第一个公式在直观上似乎更直接对应于二项式分布

g k p k1 - p n - k

g(k)pk(1p)nk(3)

但是从的角度来看“可见”pp。这在beta二项式模型中尤其明显,其中可理解为先前的成功次数,是先前的失败次数。ααββ

那么,为什么第二种形式确切地受到欢迎,其背后的原理是什么?使用任何一种参数化(例如,用于与二项分布的连接)有什么后果

如果有人可以另外指出这种选择的起源和最初的论点,那就太好了,但这对我来说不是必需的。


3
这个答案暗示了一个深层原因:相对于度量等于。这将您的问题简化为“为何使用该特定度量”?认识到该度量是建议采用“正确”的方式来理解这些分布是应用物流转型:以“ ”条款将然后消失。fFxα(1x)βXα1 x βdμ=dx/((x(1x))dμ = x/((x(1x))dμ=d(log(x1x))
dμ=d(log(x1x))
11
whuber

1
我认为它发生的真正原因是历史原因-因为它在以分布形式命名的beta函数中以这种方式出现。至于为什么具有的幂,我希望这最终会与wuber提到的原因有关(尽管从历史上看,它与度量甚至概率无关)。11
Glen_b-复原莫妮卡

2
@Glen_b不仅仅是历史原因:还有深远的原因。它们是由于Beta和Gamma函数之间的紧密联系而产生的,从而减少了的指数为何为而不是。是因为是高斯和。等效地,它是“权利”视图作为乘法同态的组成倍的添加剂字符靠在哈尔测量上乘法群。Γ 小号= ∫ 0小号- 1 ë - d 小号- 1 小号Γ(s)=0ts1etdts1sΓΓ Γ ë - d /- [R ×Γt t ttstetdt/tR×
ub

1
@wh这就是为什么应该选择gamma函数的一个很好的理由(我已经提出了这样的理由,并且我接受类似于这种形式的推理-但一定要采用不同的形式主义-成为Euler的选择);相应地,令人信服的原因出现在密度上。但这并不能证明这实际上是选择的原因(为什么要按原样选择表单),而仅仅是这样做的一个很好的理由。伽玛函数的形式... ctd
Glen_b-恢复莫妮卡

1
ctd ...一个人就很容易成为选择密度的形式并让其他人效仿的充分理由。[通常是出于更简单的原因做出选择,我们以后才能识别出这些选择,然后通常需要采取令人信服的理由来做其他事情。我们知道这就是为什么最初选择它的原因吗?] –您清楚地解释了为什么我们应该选择密度为这种方式,而不是为什么这种方式有原因的。这涉及到一系列做出选择的人(以这种方式使用并效仿),以及他们选择时的理由。
Glen_b-恢复莫妮卡的状态

Answers:


9

这是一个关于自由度和统计参数的故事,为什么这两个具有直接的简单联系是很好的。

从历史上看,“ 1 ”术语出现在Euler对Beta函数的研究中。到1763年,他一直在使用该参数化,阿德里安·玛丽·勒让德(Adrien-Marie Legendre)也是如此:他们的使用建立了后来的数学惯例。这项工作早于所有已知的统计应用程序。1

现代数学理论提供了充足的迹象表明,通过在分析,数论,几何和应用的财富,即“ - 1 ”条款实际上有一定的意义。我在对该问题的评论中已勾勒出其中一些原因。1

更令人感兴趣的是“正确的”统计参数化应该是什么。这不是很清楚,也不必与数学惯例相同。有大量的常用的,相互关联的概率分布族。因此,用于命名(即参数化)一个家族的约定通常暗含相关约定来命名相关家族。更改一个参数设置,您将需要全部更改。因此,我们可能会在这些关系中寻找线索。

很少有人会不同意最重要的分销家庭是来自正常家庭。回想一下,一个随机变量X被说成是“正态分布”时X - μ / σ具有概率密度˚F X 成比例的实验值- X 2 / 2 。当σ = 1μ = 0时,称X标准正态分布。X(Xμ)/σf(x)exp(x2/2)σ=1μ=0X

使用相对简单的统计量研究了许多数据集x 1x 2x n,这些统计量涉及数据的合理组合和低功效(通常是平方)。如果将这些数据建模为来自正态分布的随机样本-以便将每个x i视为正态变量X i的实现,则所有X i共享一个公共分布,并且是独立的-这些统计信息的分布由该正态分布确定。在实践中最常出现的是x1,x2,,xnxiXiXi

  1. ν学生分布 ν = ñ - 1 “自由度” 这是统计量的分布= ˉ Xtνtν=n1SE X 其中 ˉ X =X1个+X2++XÑ/Ñ模型的平均值的数据的和SEX=1/

    t=X¯se(X)
    X¯=(X1+X2++Xn)/nnX 2 1 + X 2 2 + + X 2 Ñ/ñ - 1 - ˉ X 2是平均值的标准误差。除以n-1表示n必须等于2或更大,而ν1或更大的整数。该公式虽然看起来有些复杂,但它是二阶数据的有理函数的平方根:它相对简单。se(X)=(1/n)(X21+X22++X2n)/(n1)X¯2n1n2ν1
  2. χ 2 ν χ 2(卡方)分布 ν “自由度”(DF)。这是 ν个独立标准正态变量的平方和的分布。因此平均这些变量的平方的分布将是一个 χ 2分布缩放的由 1 / ν:我将把这个称为“归一化” χ 2分布。χ2νχ2ννχ21/νχ2

  3. ˚F ν 1ν 2所述 ˚F与参数率分布ν 1ν 2是两个独立的归一化的比率 χ 2个分布与 ν 1 ν 2点的自由度。Fν1,ν2F(ν1,ν2)χ2ν1ν2

数学计算表明,所有这三种分布都具有密度。重要的是,密度χ 2 ν分布正比于伽玛(欧拉积分定义的被积Γ)函数。让我们比较一下:χ2νΓ

˚F χ 2 ν2 X α X ν / 2 - 1 ë - X ;˚F Γ ν X α X ν - 1 ë - X

fχ2ν(2x)xν/21ex;fΓ(ν)(x)xν1ex.

这表明,两次χ 2 ν变量具有参数伽玛分布ν / 2。一半的因子很麻烦,但是减去1会使关系变得更糟。这已经提供了一个引人注目的问题的答案:如果我们希望实现的参数χ 2分布来计算产生它(最多的一个因素平方普通变量的数目1 / 2),然后在它的密度函数必须在指数比这个数字少一半。 χ2νν/21χ21/2

为什么的因素1 / 2少麻烦比相差1?原因是当我们加总时,该因素将保持一致。如果n个独立标准法线的平方和与参数n(乘以某个因数)的Gamma分布成正比,则m个独立标准法线的平方和与参数m(与同一个因子一起)与Gamma分布成正比。,则所有n + m变量的平方和与具有参数m + n的Gamma分布成比例(仍然乘以相同因子)。 1/21nnmmn+mm+n添加参数如此紧密地模仿添加计数这一事实非常有帮助。

但是,如果我们要从数学公式中删除看上去令人讨厌的“ 1 ”,这些良好的关系将变得更加复杂。例如,如果我们改变Gamma分布的参数,指的是实际功率X式中,使得χ 2 1分布将涉及到一个“伽玛0 (”分配自的功率X在其PDF是1 - 1 = 0),则三个总和χ 2 1分布将不得不被称为“伽马2 1xχ21(0)x11=0χ21(2)简而言之,通过从公式中除去1并将其吸收到参数中,将失去自由度与Gamma分布中的参数之间的紧密加法关系。1

同样,F比分布的概率函数与Beta分布密切相关。事实上,当ÿ具有˚F比分布,分布Ž = ν 1 Ÿ /ν 1 Ÿ + ν 2具有贝塔ν 1 / 2 ν 2 / 2 的分布。它的密度函数与FYFZ=ν1Y/(ν1Y+ν2)(ν1/2,ν2/2)

˚F Žż α Ž ν 1 / 2 - 11 - Z ^ ν 2 / 2 - 1

fZ(z)zν1/21(1z)ν2/21.

此外-服用这些想法全圆-一个学生的平方与分布ν DF具有˚F与参数比分布1 ν 。再一次,很明显,保持常规参数设置与有助于自由度的基础计数保持清晰的关系tνF(1,ν)

从统计学的角度来看的话,这将是最自然,最易于使用的传统的数学参数化的变化Γ和贝塔分布:我们应该更喜欢调用Γ α 分布的“ Γ 2 α 分布”和贝塔α β 分布应该被称为“测试2 α 2 β 分布。” 实际上,我们已经这样做了:这正是我们继续使用名称“ Chi-squared”和“ FΓΓ(α)Γ(2α)(α,β)(2α,2β)F比率”分布而不是“伽玛”和“贝塔”。无论如何,我们绝不希望删除数学公式中出现的密度的“ 1 ”项。1 如果这样做,我们将失去直接的联系在密度参数和与之关联的数据计数之间:我们总是相距一。


1
感谢您的回答(我已经+ 1d)。我有一个小小的后续问题:也许我遗漏了一些东西,但是我们不是通过使用-1参数化来牺牲与二项式的直接关系吗?
蒂姆

蒂姆,我不确定您指的是哪个“与二项式的直接关系”。例如,当将Beta a b 分布用作二项式样本的共轭先验时,显然这些参数正是使用的正确参数:将成功次数和ba(而不是a - 1)(不是b 1)到失败的次数。(a,b)aa1bb1
呜呜叫声

1

该符号会误导您。公式1 )中有一个“隐藏1 ” ,因为在1 )中α > 0αβ的这些范围对于确保密度的积分不会发散是必不可少的。为此,在1 )中考虑情况α1(1)(1)αβ必须大于1(问题中提供的第二个链接对此进行了明确说明)。这两个公式中的αβ不是相同的参数。它们具有不同的范围:在1 )中α β > 1和在2 )中α ββ1αβ(1)α,β>1(2)α,β>0αβ(1) = 1(或更小)和 β = 0的情况,然后尝试在 0 1之间积分密度(的核)。等效地,对于 α = 0(或更小)和 β = 1,在2 )中尝试相同的方法。α=1β=001(2)α=0β=1


2
当解释积分时(如Pochhammer在1890年所做的那样)作为特定轮廓积分时,αβ定义范围的问题似乎消失了。在这种情况下,它可以等同于为所有αβ值(包括所有复数)确定分析函数的表达式。这使人们对问题的关注得以阐明:鉴于似乎还有许多其他可能的参数设置似乎同样可以很好地发挥作用,为什么要确切地采用这种特定的参数设置呢?αβαβ
ub

1
在我看来,OP的怀疑似乎更为基本。他对(2)中的“ -1”感到困惑,但对(1)中的“ -1”却不甚了解(当然不是真的)。看来您的评论正在回答一个不同的问题(顺便说一句,更有趣)。
Zen

2
感谢您的努力和回答,但仍然不能解决我的主要担忧:为什么选择-1?按照您的逻辑,基本上可以选择任何值,将任意下限更改为其他值。我看不到为什么-1或0可以更好或更糟地降低参数值的下界,除了0在美学上更好地界外。另一方面,使用第一种形式时,对于均匀分布,Beta(0,0)将是很好的“默认值”。是的,这些都是非常主观的评论,但这是我的主要观点:这种选择是否有任何非任意理由?
蒂姆

1
禅,我同意有一个关于如何解释原始帖子的问题。蒂姆,谢谢您的澄清。
whuber

1
嗨,蒂姆!我没有看到任何明确的原因,虽然它直接与一个事实,即用于连接使更多的α β > 0,如果ü ģ 一个α 1 V ģ 一个β 1 是独立的,则X = U /U + V B e t aα β,和密度 X正比于 X α - 11 - X β - 1。不过,你可以质疑的伽玛分布的参数...

0

对我而言,指数中-1的存在与Gamma函数的发展有关。Gamma函数的动机是找到一条平滑曲线以连接阶乘x的点。由于不可能计算x 直接如果X不是整数,这个想法是要找到一个功能的任何X 0,其满足由阶乘定义,即递推关系

f 1 = 1˚F X + 1 = X ˚F X

解决方案是通过积分的收敛。对于定义为

˚F X + 1 = ∫ 0Xë-Xd

各部分的集成提供以下内容:

f x + 1 = ∫ 0Xë-Xd= [ - X ë - X ] 0 + ∫ 0 XX - 1 ë - X d = LIM X →交通 - X ë - X - 0 ë - 0 + X ∫ 0X - 1 ë - X d = 0 - 0 + X ·&∫ 0X - 1 ë - X d = X ˚F X

因此,上面的函数满足此属性,并且指数中的-1源自零件积分的过程。请参阅Wikipedia文章https://en.wikipedia.org/wiki/Gamma_function

编辑:如果我的帖子不完全清楚,我深表歉意;我只是想指出,就我的观点而言,β分布中-1的存在来自通过Gamma函数对阶乘的泛化。有两个条件:˚F 1 = 1˚F X + 1 = X ˚F X 。我们有Γ x = x 1 ,因此满足Γ x + 1 =X Γ X = X X - 1 = x 。另外,我们有 Γ 1 = 1 1 = 0 = 1。对于参数为 α β的beta分布,二项式系数的推广为 Γ α + β Γ α ·&Γ β = α + β - 1 α - 1 β - 1 。对于两个参数,分母中都为-1。


这是没有意义的,因为阶乘满足复发的功能是不是你的状态是什么:X + 1 X X
ub

函数˚F X 满足递推关系是伽玛:Γ X + 1 = X ·&Γ X 。这就是它的定义方式。
aatr

是的:但是您陈述的动机是基于阶乘函数,而不是Gamma。
ub

重要的是要记住伽玛和阶乘之间的关系:Γ x = x 1
aatr

不幸的是,这是循环逻辑:您从阶乘开始,将Gamma表征为插值,然后得出结论,这就是为什么有-1的原因。实际上,您的帖子显示-1,好像通过将Gamma与阶乘混淆而错误地掉了出来。很少有人会发现这种启发或说服力。
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.