如果数据满足明显的一致性要求,答案是肯定的。该参数很简单,基于简单的构造,但是需要进行一些设置。这可以归结为一个直观上吸引人的事实:对于更大的x而言,增大Beta (a ,b )分布中的参数a会a增大其密度(PDF)的值,而不是较小的x;而增加b则相反:x越小,PDF的值增加越大。(a,b)xxbx
详细信息如下。
令期望的q 1q1分位数为x 1x1,期望的q 2q2分位数为x 2,x2其中1 > q 2 > q 1 > 01>q2>q1>0且(因此)1 > x 2 > x 1 > 01 > x2>x1>0。然后是唯一的aa和bb,其Beta (a ,b )(a,b)分布具有这些分位数。
证明这一点的困难在于Beta分布涉及顽固归一化常数。回忆一下定义:对于a > 0a>0和b > 0b>0,Beta (a ,b )(a,b)分布具有密度函数(PDF)
f (x ; a ,b )= 1B (a ,b ) xa-1(1-x)b-1。f(x;a,b)=1B(a,b)xa−1(1−x)b−1.
归一化常数是Beta函数
乙(一,b )= ∫ 1 0 X 一- 1(1 - X )b - 1d x = Γ (a )Γ (b )Γ (a + b )。B(a,b)=∫10xa−1(1−x)b−1dx=Γ(a)Γ(b)Γ(a+b).
如果我们尝试直接相对于a和b区分f (x ; a ,b ),f(x;a,b)一切都会变得混乱,这将是尝试演示的蛮力方式。ab
避免必须分析Beta函数的一种方法是,注意分位数是相对面积。 那是,
q 我 = ˚F (X 我 ; 一,b )= ∫ X 我 0 ˚F (X ; 一,b )d X∫ 1个0 ˚F (X ; 一,b )d Xqi=F(xi;a,b)=∫xi0f(x;a,b)dx∫10f(x;a,b)dx
对于我= 1 ,2i=1,2。这里,例如,是PDF和累积分布函数(CDF)˚FF一个测试的(1.15 ,0.57 )(1.15,0.57)分布其中X 1 = 1 / 3x1=1/3和q 1 = 1 / 6q1=1/6。
左侧绘制了密度函数x → f (x ; a ,b )x→f(x;a,b)。 q 1q1是x 1左侧曲线下方的面积,以红色显示,相对于曲线下方的总面积。 q 2是x 2左侧的面积,等于红色和蓝色区域的总和,再次相对于总面积。右边的CDF显示(x 1,q 1)和(x 2x1q2x2(x1,q1),q 2)(x2,q2)在其上标记两个不同的点。
在该图中,(X 1,q 1)(x1,q1)固定在(1 / 3 ,1 / 6 )(1/3,1/6),一个a被选择为1.151.15,然后的值bb被发现的该(X 1,q 1)(x1,q1)位于上Beta (a ,b )(a,b) CDF。
引理:总是可以找到这样的bb。
具体而言,使(x 1,q 1)(x1,q1)一劳永逸。(在以下插图中,它们保持不变:在所有三种情况下,x 1x1左侧的相对面积均等于q 1。q1)对于任何a > 0a>0,引理声称存在唯一的bb值,用b表示(a ),b(a),其中x 1x1是Beta (a ,b (a ))的q 1q1分位数(a,b(a)) 分配。
要了解原因,首先请注意,当bb接近零时,所有概率都在00值附近堆积,而F (x 1 ; a ,b )F(x1;a,b)接近11。当bb接近无穷大时,所有概率都在值11附近堆积,因此F (x 1 ; a ,b )F(x1;a,b)接近00。在这两者之间,函数 b → F (x 1 ; a ,b )b→F(x1;a,b)严格增加bb。
这种说法在几何上是显而易见的:这等于说,如果我们看一下曲线下的左侧区域x → x a - 1(1 - x )b - 1x→xa−1(1−x)b−1 相对于曲线下的总面积,并将其与曲线下的相对面积X → X 一- 1(1 - X )b ' - 1x→xa−1(1−x)b′−1为b ' > bb′>b,那么后者面积相对较大。这两个函数的比率为(1 - X )b ' - b(1−x)b′−b。这是一个函数等于 11时 X = 0 ,x=0,稳步下降到 00时 X = 1。x=1. 因此的功能的高度 X → ˚F (X ; 一,b ')x→f(x;a,b′)是相对较大的比的高度 X → ˚F (X ; a ,b )x→f(x;a,b)对于 xx的左边X 1x1比他们的 Xx向右侧 X 1。x1. 因此,前者中 x 1左侧的区域必须相对大于 x 1右侧的区域。 (例如,这很容易使用黎曼和转化为严格的论点。)x1x1.
我们已经看到,函数b → f (x 1 ; a ,b )b→f(x1;a,b)严格单调递增,极限值为00和1 1,分别为b → 0b→0和b → ∞b→∞,。它也是(显然)是连续的。因此,存在一个数b (a )b(a),其中f (x 1 ; a ,b (a ))= q 1f(x1;a,b(a))=q1 这个数字是唯一的,证明了引理。
同一论点表明,随着b的b增加,x 2x2左侧的面积也增加。 因此值˚F (X 2 ; 一,b (一))f(x2;a,b(a))范围以上的数字的一些时间间隔为一个a从几乎进展00至几乎∞ 。∞.f (x 2 ; a ,b (a ))f(x2;a,b(a))为a → 0a→0 的极限是q 1。q1.
这是一个aa接近00(等于0.10.1)的示例。与X 1 = 1 / 3x1=1/3和q 1 = 1 / 6q1=1/6(如前面的图),b (一)≈ 0.02。b(a)≈0.02.x 1x1和x 2 之间几乎没有区域:x2:
CDF实际上在x 1x1和x 2x2,之间是平坦的,而q 2q2实际上在q 1的q1.顶部。 极限为a → 0a→0,q 2 → q 1。q2→q1.
在另一个极端,足够大的值的一个导致˚F (X 2 ; 一,b (一))任意地接近1。 下面是一个例子(X 1,q 1)如前。
这里a = 8,b (a )接近10。 现在F (x 2 ; a ,b (a ))本质上是1 :x 2的右边几乎没有面积。
因此,您可以选择q 1和1之间的任意 q 2并调整a直到F (x 2 ; a ,a (b ))= q 2。 正如之前,这一个必须是唯一的,QED。
R
查找解决方案的工作代码发布在从两个任意点(分位数)确定beta分布参数α和β上。