分布到底是什么?


16

我对概率统计不了解,并且希望学习。我看到“分布”一词在不同的上下文中到处使用。

例如,离散随机变量具有“概率分布”。我知道这是什么 连续随机变量具有概率密度函数,则对于,概率密度函数从到的积分是在评估的累积分布函数。xRxx

显然,至少在谈论连续随机变量时,“分布函数”与“累积分布函数”同义(问题:它们是否总是同义词?)。

然后是许多著名的发行。 分布分布,等等。但是分布到底是什么?它是Γ随机变量的累积分布函数吗?还是Γ随机变量的概率密度函数?Γχ2ΓΓΓ

但是,有限数据集的频率分布似乎是直方图。

长话短说:在概率统计中,“分布”一词的定义是什么?

我知道数学中的分布定义(配备归纳极限拓扑的测试函数集合的对偶空间的一个元素),而不是概率和统计。


1
相应的Wikipedia文章似乎是对该主题的不错介绍。
Aleksandr Blekh

1
严格来说,“ distribution”和“ cdf”应被视为同义词,但“ distribution”通常在较宽松的意义上使用,并且通常用于实际指代密度/ pmf。
Glen_b-恢复莫妮卡2015年

3
您对分布的理解非常接近概率分布。主要的区别是那些有概率的人具有一些其他属性(为正数并归一化为统一数)。连接是您的定义根据关联的期望运算符建立了分布。统计中还普遍存在对语言的(严重)滥用,这也称参数化分布族为“分布”。最后,任何有限数据集都会确定通过对其采样而获得的分布,即“经验分布”。
whuber

@whuber,这特别有帮助,特别是语言的滥用。就像调用一个函数的不确定积分...一个函数一样。
danzibr

具有很好的答案类似的问题: stats.stackexchange.com/questions/210403/...
的Kjetil b HALVORSEN

Answers:


7

以下是值随机变量。如果您有兴趣,可以直接扩展到其他空格。我认为,与单​​独考虑密度,质量和累积分布函数相比,以下更一般的定义更直观。R

我在文本中加入了一些数学/概率术语以使其正确。如果不熟悉这些术语,则只需将“桶组”视为“ 我能想到的任何子集”,而将随机变量视为某个实验的数值结果,就可以很好地理解直觉。相关概率。R


是一个概率空间和X ω - [R -值对这个空间随机变量。(Ω,F,P)X(ω)R

该组函数,其中是波雷尔集,被称为分布XQ(A):=P(ωΩ:X(ω)A)AX

换句话说,对于任何子集,分布(轻松地说)告诉您X占据该集合中某个值的概率。人能证明Q完全由函数确定˚F X = P X X ,并且反之亦然。要做到这一点-我在这里跳过细节-构建对分配的概率博雷尔集措施˚F X 对所有组- X ),并认为这个有限的措施与同意QRXQF(x):=P(Xx)F(x)(,x)Q系统生成的Borel σ -代数。πσ

如果恰巧可以写成Q = 一个 ˚F X d X˚F是一个密度函数Q,你可以看到,虽然这密度不是唯一确定的(考虑改变Lebesgue集的集合为零),也可以将f称为X的分布。通常,我们称其为X的概率密度函数。Q(A)Q(A)=Af(x)dxfQfXX

同样,如果它恰巧可以写为Q = Σ { ... - 1 0 1 ... } ˚F ,然后是有意义的发言˚F X的分布,尽管我们通常将其称为概率质量函数。Q(A)Q(A)=iA{,1,0,1,}f(i)fX

因此,无论何时读类似“ 如下上的均匀分布[ 0 1 ] ”,它简单地意味着该函数Q ,它告诉你的概率X呈现在某些组的值,其特征在于所述概率密度函数˚F X = [ 0 1 ]或累积分布函数˚F X = X - ˚F X[0,1]Q(A)Xf(x)=I[0,1]F(x)=xf(t)dt

关于未提及随机变量而仅提及分布的情况的最后说明。可以证明给定一个分布函数(或质量,密度或累积分布函数),存在一个具有随机变量的概率空间,具有该分布。因此,关于分布或具有该分布的随机变量在本质上没有区别。这只是一个人的问题。


3

为概率空间,设XB为可测量空间,设X Ω X为可测量函数,这意味着X 1B = { ω X ω } ˚FX分布是概率测度μ(Ω,F,P)(X,B)X:ΩXX1(B)={ω:X(ω)B}FBB X超过X由下式定义 μ X= P X 。当 X = R并且 B是Borel sigma-field时,我们将函数 X称为随机“变量”。μX(X,B)μX(B)=P(XB)X=RBX


1
必须对几乎不了解概率和统计信息的人非常清楚:)
Alexey Grigorev'Aug

3
好吧,OP似乎知道一些高级数学知识,例如“配备感应极限拓扑的测试功能集合的双重空间元素”。检查他的问题的结尾。

2
对我来说确实是一个很好的回应。我需要检查概率空间的定义,但对于具有数学背景的人来说,这很清楚。我很欣赏答案的简洁性,只是由于另一个答案中的细节而不接受它。
danzibr

1

到目前为止,问题和答案似乎都集中在理论分布上。经验分布可以更直观地了解分布。

在课堂上使用跳绳比赛时,我们观察了所有在课堂上使用跳绳的孩子。第一个孩子可以跳两次,第二个可以跳四次,第二个可以跳十五次,等等。我们记录下跳跃的次数。其中五个孩子各跳了八次,但只有一个孩子跳了两次。我们说跳跃八次与跳跃两次的分布不同。

观察到的分布的表面上定义是变量的每个观察到的值的出现频率。

然后,在推论统计中,我们尝试使理论分布适合观察到的分布,因为我们希望使用理论分布的假设。通过将“已观察”替换为“可观察”或更准确地说:“期望”,可以达到理论分布的类似定义。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.