分布收敛和概率收敛的直观解释


26

概率收敛的随机变量与分布收敛的随机变量之间的直观区别是什么?

我已经阅读了许多定义和数学方程式,但这并没有真正的帮助。(请记住,我是正在研究计量经济学的本科生。)

随机变量如何收敛到单个数字,又收敛到分布?


1
“哪有一个随机变量收敛到一个单一的数字,但收敛到一个分配?” -我认为您可以从澄清RV是否可以收敛到单个数字或整个分布中受益(一旦您意识到“单个数”本质上是一种特殊的分布类型,这将是个谜)还是您的困惑是,单个RV如何根据一种收敛模式收敛为常数,而如何根据另一种收敛模式收敛为分布?
银鱼

1
像@CloseToC一样,我想知道您是否遇到过回归,一方面告诉您是“渐近正常”,但另一方面告诉您它收敛到了真实的。 ββ^β
银鱼

@Silverfish,我实际上还没有!
nicefella

Answers:


25

随机数如何收敛为常数?

假设您的盒子里有球。您可以一一挑选。选好球之后,我问你:盒子里的球的平均重量是多少?最好的答案是。您意识到本身是随机值吗?这取决于您首先选择了哪个球。ķ ˉ X ķ = 1Nk ˉ X ķķx¯k=1ki=1kxix¯kk

现在,如果您继续拉球,在某些时候,盒子中将不再有球,您将得到。x¯Nμ

因此,我们得到的是随机序列收敛为常数。因此,理解概率收敛问题的关键是要意识到我们正在谈论以某种方式构造的一系列随机变量 ˉ X Ñ=μ

x¯1,,x¯k,,x¯N,x¯N,x¯N,
x¯N=μ

接下来,让我们获得统一的随机数,其中。让我们看一下随机序列,其中。该是一个随机值,因为它的所有条款都是随机的值。我们无法预测是什么。但是,事实证明,我们可以说的概率分布将越来越像标准正态。这就是分布收敛的方式。Ë [ 0 1 ] ξ 1ξ 2... ξ ķ = 1e1,e2,ei[0,1]ξ1,ξ2,ξķξķξķÑ01ξk=1k12i=1k(ei12)ξkξkξkN(0,1)


1
达到N后,第一个示例中的随机变量序列是什么?极限如何评估?
ekvall

这只是一种直觉。想象一下无限框,因此,您的估计量收敛到总体均值。μx¯μ
阿克萨卡(Aksakal)

21

尚不清楚该问题的读者对任何事物的收敛有多少直觉,更不用说随机变量了,所以我将写出来的答案似乎是“很小”。一些可能的帮助:而不是思考“怎么能一个随机变量收敛”,请问怎么序列的随机变量可以收敛。换句话说,它不仅是单个变量,而且是(无限长!)变量列表,而列表后面的变量越来越接近……某物。也许是单个数字,也许是整个分布。为了发展直觉,我们需要弄清楚“越来越近”的意思。随机变量收敛的方式如此之多的原因是,“

首先,让我们回顾一下实数序列的收敛性。在我们可以使用欧几里得距离测量与接近程度。考虑。然后序列开始和我声称收敛到。显然越来越接近到,但它也确实越来越接近| x y | x y x n = n + 1R |xy|xy X1xn=n+1n=1+1n2 3x1,x2,x3,xn1xn1xn0.90.50.910.90.050.9x20=1.050.0510.0512,32,43,54,65,xn1xn1xn0.9。例如,从第三项开始,序列中的项与的距离为或更小。重要的是它们任意接近,但不接近。序列中没有条件真的来临之内的,更不用说保持这种密切的后续条款。相比之下因此是从,和所有随后的术语是内的,如下所示。0.50.910.90.050.9x20=1.050.0510.051

(n + 1)/ n收敛至1

我可能会更严格一些,需求项的取值应保持在的之内,并且保持在的范围之内,在本示例中,我发现对于及以后的项,这是正确的。此外,我可以选择任何固定的接近度阈值,无论多么严格(除了,即项实际上为),最终条件将满足了超过某一术语(象征性的所有术语:用于,其中的值取决于如何严格的1 Ñ = 1000 ε ε = 0 1 | x nx | < ε Ñ > Ñ Ñ ε X Ñ = 1个+ Ñ 0.0011N=1000ϵϵ=01|xnx|<ϵn>NNϵ我选择了)。对于更复杂的示例,请注意,我对第一次满足条件并不一定感兴趣-下一个术语可能不符合该条件,这很好,只要我可以沿其顺序进一步找到一个术语满足条件,在以后的所有条件中保持满足。我用说明这一点,它也收敛到,再次被阴影化。 1ϵ=0.05xn=1+sin(n)n1ϵ=0.05

1 + sin(n)/ n收敛至1

现在考虑和随机变量的序列。这是一系列RV,其中,,等。在什么意义上我们可以说这越来越接近本身?X Ñ = 1 + 1XU(0,1)X1=2XX2=3Xn=(1+1n)XX1=2XX2=32XX3=43XX

由于和是分布,而不仅仅是单个数字,因此条件现在是一个事件:即使对于一个固定的和这可能会或可能不会发生。考虑到它被满足的概率会导致概率收敛。对于我们想要的互补概率 -直观地,该概率有些不同(由至少),以 -到变得任意小,足够大XnX|XnX|<ϵnϵXnpXP(|XnX|ϵ)XnϵXn。对于固定的这会产生整个概率序列,即,,,,如果这个序列概率收敛到零(如发生在我们的例子),那么我们说的概率收敛。请注意,概率限制通常是常数:例如,在计量经济学回归中,随着样本数量增加,我们会看到。但是这里ϵP(|X1X|ϵ)P(|X2X|ϵ)P(|X3X|ϵ)XnXplim(β^)=βnplim(Xn)=XU(0,1)。有效地,概率收敛意味着和在特定实现上不太可能相差太多- 只要我选择一个,我就可以使和的概率比小得多足够大的。XnXXnXϵn

变得更接近的另一种感觉是它们的分布越来越相似。我可以通过比较他们的CDF来衡量。特别是,选择一些,其中是连续的(在我们的示例中因此它的CDF在任何地方都是连续的,任何都会这样做)并求出序列的CDF在那里。这将产生另一个概率序列,,和并且此序列收敛到。CDF在XnXxFX(x)=P(Xx)XU(0,1)xXnP(X1x)P(X2x)P(X3x)P(Xx)x为每个的成为任意接近的CDF评价在。如果不管是哪个这个结果也是如此,我们选择了,然后收敛于的分布。事实证明,这是在这里发生的,我们不应该感到惊讶,因为概率的收敛意味着分布的收敛。请注意,不可能会收敛于特定的非退化分布,而会收敛于常数。XnXxxXnX XXXn (最初的问题可能是哪个混淆点?但是请稍后再作澄清。)

对于另一个示例,让。现在我们有一系列RV,,,,,这是清楚的是,概率分布退化到一个尖峰。现在考虑退化分布,我的意思是。容易看出,对于任何,序列收敛为零,因此概率收敛为结果,YnU(1,n+1n)Y1U(1,2)Y2U(1,32)Y3U(1,43)y=1Y=1P(Y=1)=1ϵ>0P(|YnY|ϵ)YnYYn还必须在分布上收敛到,这可以通过考虑CDF来确定。由于CDF的是不连续的,在,我们不需要考虑在该值评价的CDF,但对于在任何其他评估的CDF我们可以看到,序列,,,收敛到,对于为零,对于为。这次,因为RV序列在概率上收敛到一个常数,所以它在分布上也收敛到一个常数。YFY(y)Yy=1yP(Y1y)P(Y2y)P(Y3y)P(Yy)y<1y>1

最后的澄清:

  • 尽管概率收敛表示分布收敛,但反之通常是错误的。仅仅因为两个变量具有相同的分布,并不意味着它们必须彼此接近。举个简单的例子,取和。然后和都具有完全相同的分布(每个为50或为零,则50%的),并且序列即序列在分布上平易收敛于(序列中任何位置的CDF与的CDF相同。但是和XBernouilli(0.5)Y=1XXYXn=XX,X,X,X,YYYX总是一个开,从而,从而不趋向于零,所以不收敛于在概率。但是,如果在一个常数的分布中存在收敛,则意味着该常数的概率收敛(直觉上,在顺序上进一步远离该常数将变得不可能)。P(|XnY|0.5)=1XnY
  • 正如我的例子所表明的那样,概率收敛可以是一个常数,但不必一定是恒定的。分布趋同也可能是恒定的。不可能将概率收敛到一个常数,而将分布收敛到一个特定的非退化分布,反之亦然。
  • 是否有可能看到一个示例,例如,有人告诉您序列融合了另一个序列?您可能还没有意识到这是一个序列,但是如果它是一个也依赖于的分布,那么赠品将是。两个序列都可能收敛为一个常数(即简并分布)。您的问题表明您想知道RV的特定序列如何收敛到常数和分布。我想知道这是否就是您要描述的场景。Xn Ynn
  • 我目前的解释不是很“直观”-我打算将直觉制作成图形,但是还没有时间为RV添加图形。

16

在我看来,现有的答案都传达了有用的观点,但是它们并没有在两种融合模式之间做出重要区分。

令,和为随机变量。为直观,假设通过某个随机实验为分配了值,该随机实验对每个了少许更改,从而给出了无限数量的随机变量序列,并且假设得到了由其他某个随机实验分配的值。Xnn=1,2,YXnnY

根据定义,如果,则和彼此相差某个任意少量的概率接近零,与您一样小喜欢。宽松地说,在序列的远处,我们相信和值将非常接近。XnpYYXnnXnXnY

另一方面,如果我们仅在分布上具有收敛性而在概率上没有收敛性,那么我们知道对于大,几乎对于任何,与几乎相同。注意,这并没有说明和的值彼此之间的接近程度。例如,如果,并且因此对于大的也非常类似地分布,那么从直觉,和的值似乎nP(Xnx)P(Yx)xXnYYN(0,1010)XnnXnY在任何给定的观察结果中,都会有很大的不同。毕竟,如果除了分布收敛以外对它们没有任何限制,则出于所有实际原因,它们很可能是独立的变量。N(0,1010)

(在某些情况下,比较和甚至没有意义,也许它们甚至没有在相同的概率空间上定义。不过,这是更技术性的说明。)XnY


1
(+1)您甚至不需要改变-我打算在答案中添加一些细节,但出于长度原因决定不这样做。但是我认为这是一个值得提出的观点。Xn
银鱼

12

我不明白的是,随机变量如何收敛到单个数字,又收敛到分布?

如果您正在学习计量经济学,那么您可能会在回归模型的背景下对此感到疑惑。它收敛到简并的分布,成为常数。但是其他的确具有不退化的极限分布。

β^n如果满足必要的假设,则的概率收敛至。这意味着,通过选择足够大的样本量,估算器将尽可能接近我们想要的真实参数,并且它的距离可能会尽可能小。如果您考虑绘制各种的直方图,最终将只是一个以为中心的尖峰。βNβ^nnβ

在什么意义上会收敛?它也收敛到一个常数。不针对正态分布的随机变量。如果计算的方差,则会看到它的收缩量为。因此,最终它将以足够大的变为零,这就是为什么估算器变为常数的原因。收敛到正态分布的随机变量的是β^nβ^nnn

ñÑ0σ2 β Ñn(β^nβ)。如果采用的是方差,则不会随缩小(也不增大)。在非常大的样本中,在标准假设下,这大约为。然后,我们可以使用此近似值来近似那个大样本中的分布。nN(0,σ2)β^n

但是您没错的限制分布也是一个常数。β^n


1
将其视为“ 用放大镜看着 ”,放大率随以的速率增加。 Ñβn^nn
kjetil b halvorsen

7

让我尝试使用一些非常简单的示例来给出一个简短的答案。

分布趋同

令对于所有n,然后收敛到分布中的。但是,实现的随机性不会随时间变化。如果必须预测的值,则对错误的期望不会随时间变化。XÑXÑ01XÑXÑXnN(1n,1)XnXN(0,1)XnXn

概率收敛

现在,考虑随机变量,其值的概率为,否则为。随着达到无穷大,我们越来越确定将等于。因此,我们说的概率收敛到。注意,这也意味着的分布收敛到。 0 1 1Yn0 1nYn0Yn0Yn011n1nYn0Yn0Yn0

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.