概率收敛的随机变量与分布收敛的随机变量之间的直观区别是什么?
我已经阅读了许多定义和数学方程式,但这并没有真正的帮助。(请记住,我是正在研究计量经济学的本科生。)
随机变量如何收敛到单个数字,又收敛到分布?
概率收敛的随机变量与分布收敛的随机变量之间的直观区别是什么?
我已经阅读了许多定义和数学方程式,但这并没有真正的帮助。(请记住,我是正在研究计量经济学的本科生。)
随机变量如何收敛到单个数字,又收敛到分布?
Answers:
随机数如何收敛为常数?
假设您的盒子里有球。您可以一一挑选。选好球之后,我问你:盒子里的球的平均重量是多少?最好的答案是。您意识到本身是随机值吗?这取决于您首先选择了哪个球。ķ ˉ X ķ = 1 ˉ X ķķ
现在,如果您继续拉球,在某些时候,盒子中将不再有球,您将得到。
因此,我们得到的是随机序列收敛为常数。因此,理解概率收敛问题的关键是要意识到我们正在谈论以某种方式构造的一系列随机变量。 ˉ X Ñ=μ
接下来,让我们获得统一的随机数,其中。让我们看一下随机序列,其中。该是一个随机值,因为它的所有条款都是随机的值。我们无法预测是什么。但是,事实证明,我们可以说的概率分布将越来越像标准正态。这就是分布收敛的方式。Ë 我 ∈ [ 0 ,1 ] ξ 1,ξ 2,... ξ ķ = 1ξķξķξķÑ(0,1)
尚不清楚该问题的读者对任何事物的收敛有多少直觉,更不用说随机变量了,所以我将写出来的答案似乎是“很小”。一些可能的帮助:而不是思考“怎么能一个随机变量收敛”,请问怎么序列的随机变量可以收敛。换句话说,它不仅是单个变量,而且是(无限长!)变量列表,而列表后面的变量越来越接近……某物。也许是单个数字,也许是整个分布。为了发展直觉,我们需要弄清楚“越来越近”的意思。随机变量收敛的方式如此之多的原因是,“
首先,让我们回顾一下实数序列的收敛性。在我们可以使用欧几里得距离测量与接近程度。考虑。然后序列开始和我声称收敛到。显然越来越接近到,但它也确实越来越接近| x − y | x y x n = n + 1 X1,2 ,3xn1xn1xn0.90.50.910.90.050.9x20=1.050.0510.051。例如,从第三项开始,序列中的项与的距离为或更小。重要的是它们任意接近,但不接近。序列中没有条件真的来临之内的,更不用说保持这种密切的后续条款。相比之下因此是从,和所有随后的术语是内的,如下所示。
我可能会更严格一些,需求项的取值应保持在的之内,并且保持在的范围之内,在本示例中,我发现对于及以后的项,这是正确的。此外,我可以选择任何固定的接近度阈值,无论多么严格(除了,即项实际上为),最终条件将满足了超过某一术语(象征性的所有术语:用于,其中的值取决于如何严格的1 Ñ = 1000 ε ε = 0 1 | x n − x | < ε Ñ > Ñ Ñ ε X Ñ = 1个+ 罪(Ñ )我选择了)。对于更复杂的示例,请注意,我对第一次满足条件并不一定感兴趣-下一个术语可能不符合该条件,这很好,只要我可以沿其顺序进一步找到一个术语满足条件,并在以后的所有条件中保持满足。我用说明这一点,它也收敛到,再次被阴影化。 1ϵ=0.05
现在考虑和随机变量的序列。这是一系列RV,其中,,等。在什么意义上我们可以说这越来越接近本身?X Ñ = ( 1 + 1X1=2XX2=3
由于和是分布,而不仅仅是单个数字,因此条件现在是一个事件:即使对于一个固定的和这可能会或可能不会发生。考虑到它被满足的概率会导致概率收敛。对于我们想要的互补概率 -直观地,该概率有些不同(由至少),以 -到变得任意小,足够大。对于固定的这会产生整个概率序列,即,,,,如果这个序列概率收敛到零(如发生在我们的例子),那么我们说的概率收敛。请注意,概率限制通常是常数:例如,在计量经济学回归中,随着样本数量增加,我们会看到。但是这里。有效地,概率收敛意味着和在特定实现上不太可能相差太多- 只要我选择一个,我就可以使和的概率比小得多足够大的。
变得更接近的另一种感觉是它们的分布越来越相似。我可以通过比较他们的CDF来衡量。特别是,选择一些,其中是连续的(在我们的示例中因此它的CDF在任何地方都是连续的,任何都会这样做)并求出序列的CDF在那里。这将产生另一个概率序列,,和并且此序列收敛到。CDF在为每个的成为任意接近的CDF评价在。如果不管是哪个这个结果也是如此,我们选择了,然后收敛于的分布。事实证明,这是在这里发生的,我们不应该感到惊讶,因为概率的收敛意味着分布的收敛。请注意,不可能会收敛于特定的非退化分布,而会收敛于常数。 (最初的问题可能是哪个混淆点?但是请稍后再作澄清。)
对于另一个示例,让。现在我们有一系列RV,,,,,这是清楚的是,概率分布退化到一个尖峰。现在考虑退化分布,我的意思是。容易看出,对于任何,序列收敛为零,因此概率收敛为结果,还必须在分布上收敛到,这可以通过考虑CDF来确定。由于CDF的是不连续的,在,我们不需要考虑在该值评价的CDF,但对于在任何其他评估的CDF我们可以看到,序列,,,收敛到,对于为零,对于为。这次,因为RV序列在概率上收敛到一个常数,所以它在分布上也收敛到一个常数。
最后的澄清:
在我看来,现有的答案都传达了有用的观点,但是它们并没有在两种融合模式之间做出重要区分。
令,和为随机变量。为直观,假设通过某个随机实验为分配了值,该随机实验对每个了少许更改,从而给出了无限数量的随机变量序列,并且假设得到了由其他某个随机实验分配的值。
根据定义,如果,则和彼此相差某个任意少量的概率接近零,与您一样小喜欢。宽松地说,在序列的远处,我们相信和值将非常接近。
另一方面,如果我们仅在分布上具有收敛性而在概率上没有收敛性,那么我们知道对于大,几乎对于任何,与几乎相同。注意,这并没有说明和的值彼此之间的接近程度。例如,如果,并且因此对于大的也非常类似地分布,那么从直觉,和的值似乎在任何给定的观察结果中,都会有很大的不同。毕竟,如果除了分布收敛以外对它们没有任何限制,则出于所有实际原因,它们很可能是独立的变量。
(在某些情况下,比较和甚至没有意义,也许它们甚至没有在相同的概率空间上定义。不过,这是更技术性的说明。)
我不明白的是,随机变量如何收敛到单个数字,又收敛到分布?
如果您正在学习计量经济学,那么您可能会在回归模型的背景下对此感到疑惑。它收敛到简并的分布,成为常数。但是其他的确具有不退化的极限分布。
如果满足必要的假设,则的概率收敛至。这意味着,通过选择足够大的样本量,估算器将尽可能接近我们想要的真实参数,并且它的距离可能会尽可能小。如果您考虑绘制各种的直方图,最终将只是一个以为中心的尖峰。
在什么意义上会收敛?它也收敛到一个常数。不针对正态分布的随机变量。如果计算的方差,则会看到它的收缩量为。因此,最终它将以足够大的变为零,这就是为什么估算器变为常数的原因。收敛到正态分布的随机变量的是
ñÑ(0,σ2) β Ñ。如果采用的是方差,则不会随缩小(也不增大)。在非常大的样本中,在标准假设下,这大约为。然后,我们可以使用此近似值来近似那个大样本中的分布。
但是您没错的限制分布也是一个常数。