单变量随机变量的均值是否始终等于其分位数函数的积分?


17

我只是注意到,对从p = 0到p = 1的单变量随机变量的分位数函数(逆cdf)进行积分会产生变量的平均值。我之前从未听说过这种关系,所以我想知道:是否总是这样?如果是这样,这种关系是否广为人知?

这是python中的示例:

from math import sqrt
from scipy.integrate import quad
from scipy.special import erfinv

def normalPdf(x, mu, sigma):
    return 1.0 / sqrt(2.0 * pi * sigma**2.0) * exp(-(x - mu)**2.0 / (2.0 * sigma**2.0))

def normalQf(p, mu, sigma):
    return mu + sigma * sqrt(2.0) * erfinv(2.0 * p - 1.0)

mu = 2.5
sigma = 1.3
quantileIntegral = quad(lambda p: quantile(p,mu,sigma), 0.0, 1.0)[0]
print quantileIntegral # Prints 2.5.

Answers:


26

令为随机变量的CDF,因此逆CDF可以写为。在您的积分中,代入,以获得X F 1 p = F x d p = F 'x d x = f x d xFXF1p=F(x)dp=F(x)dx=f(x)dx

01F1(p)dp=xf(x)dx=EF[X].

这对于连续分布有效。由于CDF逆数不是唯一的定义,因此必须注意其他分布。

编辑

当变量不连续时,就Lebesgue测度而言,它不具有绝对连续的分布,需要注意反CDF的定义和计算积分的注意。例如,考虑离散分布的情况。根据定义,这是CDF是阶跃函数,其步长为,步长为每个可能值。Pr Fx xFPrF(x)x

图1

该图显示了伯努利分布的CDF 缩放为2 1 / 3 0 2 / 3 2 0 2 0 × 1 / 3 + 2 × 2 / 3 = 4 / 3(2/3)2。即,随机变量具有等于的概率和等于的的概率。在和处的跳跃高度给出其概率。该变量的期望值显然等于。1/302/32020×(1/3)+2×(2/3)=4/3

我们可以通过要求定义“逆CDF”F1

F1(p)=x if F(x)p and F(x)<p.

这意味着也是一个阶跃函数。对于随机变量的任何可能的值,将在长度的间隔内获得值。因此,其积分是通过对求和而获得的,这只是期望值。 x F 1 x Pr Fx x Pr Fx F1xF1xPrF(x)xPrF(x)

图2

这是前面示例的逆CDF的图形。CDF 中和的跳变成为这些长度的水平线,其高度等于和,这是它们对应于其概率的值。(逆CDF的定义超出间隔2 / 3 0 2 [ 0 1 ] 0 1 / 3 2 2 / 3 4 / 31/32/302[0,1]。)其整数是两个矩形的总和,一个矩形的高度为,底数为,另一个矩形的高度为,底数为,总计为,和以前一样。01/322/34/3

通常,对于连续分布和离散分布的混合,我们需要定义逆CDF来平行于此构造:在每个高度离散跳跃处,我们必须形成长度的水平线,如上式所示。ppp


您在变量更改中犯了一个错误。x来自哪里?
Mascarpone

3
@Mascarpone请阅读等式前面的文本。我认为变量:-)的更改没有错误,但是如果您认为这可以阐明此论述,我很乐意指出,当,则。我只是认为没有必要。x = F 1p p=F(x)x=F1(p)
ub

现在我明白了;),
Mascarpone

+1 Whuber:谢谢!您能否详细说明以使用给定的公式,如何照顾其逆CDF没有唯一定义的其他分布?
全部

1
为了绕过关于逆,伪逆等的不愉快考虑,并同时针对每一刻进行泛化,请参见此处
难道

9

等效分析生存分析中众所周知:预期寿命为,其中生存函数为从出生时测量S t = Pr T > t t = 0 t

t=0S(t)dt
S(t)=Pr(T>t)t=0。(它可以很容易地扩展为覆盖负值。)t

enter image description here

因此我们可以将其重写为但这是 如所讨论区域的各种反射所示1个q = 0 ˚F - 1q

t=0(1F(t))dt
q=01F1(q)dq

enter image description here


1
我喜欢图片,并且本能地觉得这里潜藏着一个很棒的主意-我喜欢这个主意- 但我不理解这些特殊的主意。说明会有所帮助。使我停滞不前的一件事是想尝试将的积分扩展到:它必须发散。- (1F(t))dt
ub

@whuber:如果要扩展到负,则会得到。注意,如果对于约对称的分布收敛,即则很容易看到期望为零。求和而不是差给出约的平均绝对偏差。&Integral; = 01 - ˚F t0 ˚F = 1 - ˚F - &Integral; = 01 - ˚F t=0(1F(t))dtt=0F(t)dt0F(t)=1F(t)t=0(1F(t))dt+t=0F(t)dt0
亨利

如果您喜欢图表,那么您可能对Lee于1988年发表的这篇论文感兴趣:超额损失保险和回顾性评级的一种图形方法
Avraham

4

我们正在评估:

enter image description here

让我们尝试简单地更改变量:

enter image description here

而且我们注意到,根据PDF和CDF的定义:

enter image description here

几乎到处都有。因此,根据期望值的定义,我们具有:

enter image description here


在最后一行中,我更清楚地解释了期望值的定义。几乎到处都涉及到最后一个方程之上的方程。en.wikipedia.org/wiki/Almost_everywhere
Mascarpone

1
编辑,thanx :)
Mascarpone

3

对于任何具有cdf实值随机变量,众所周知,当在上一致时,具有与相同的定律。因此,只要存在,的期望就与的期望相同: 表示适用于一般的CDF,服用是左连续逆在当它不可逆的。XF F1(U)XU(0,1)XF1(U)

E(X)=E(F1(U))=01F1(u)du.
XF1(U)FF1FF

1

注意,被定义为P X X 和是右连续函数。˚F - 1被定义为 ˚F - 1p = 分钟X | ˚F X p 由于正确的连续性 ,最小值是有意义的。让ü上的均匀分布[ 0 1 ]。您可以轻松地验证F(x)P(Xx)F1

F1(p)=min(x|F(x)p).
minU[0,1]具有相同的CDF为X,这是˚F。这不需要X连续。因此,ÈX=È ˚F - 1Û=1 0 ˚F - 1p d p。积分是Riemann–Stieltjes积分。我们唯一需要的假设是X的均值存在(E | X | <F1(U)XFXE(X)=E(F1(U))=01F1(p)dpX)。E|X|<

那和我的答案是一样的。
斯特凡·洛朗
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.