在我的课堂上,我使用一种“简单”的情况,这可能会帮助您感到疑惑,甚至可能对自由度的含义产生直觉。
这是对主题的一种“阿甘正传”方法,但值得尝试。
假设您有10个独立观察值,它们来自均值和方差未知的正常人群。X1,X2,…,X10∼N(μ,σ2)μσ2
您的观察为您带来了有关和。毕竟,您的观测值倾向于散布在一个中心值附近,该值应该接近的实际值和未知值,并且同样,如果非常高或非常低,那么您可以期望看到自己的观测值分别收集一个非常高或非常低的值。一个很好的“替代品”为(在没有实际价值的知识)是,您观察到的平均值。 μσ2μμμX¯
另外,如果您的观察值彼此非常接近,则表明您可以预期必须很小,并且同样地,如果非常大,那么您可以期望看到截然不同的值为到。 σ2σ2X1X10
如果您下注一周的工资应为和的实际值,则需要选择一对值来押注您的钱。除非您正确猜出直到小数点后第200位,否则不要想像丢掉薪水那样剧烈的事情。不。让我们考虑某种奖赏制度,您越猜和,您得到的奖励就越多。μσ2μμσ2
从某种意义上说,你的更好,更明智,和更有礼貌猜测的价值可。在这个意义上,你估计是必须围绕一些价值。类似地,一个好的 “替代品” (目前不需要)是,即样本方差,它很好地估计了。μX¯μX¯σ2S2σ
如果您认为这些替代物是和的实际值,那么您可能会错,因为很幸运的机会太渺茫了,以至于您的观察使自己协调起来就可以得到的礼物。等于,等于。不,可能没有发生。μσ2X¯μS2σ2
但是您可能会遇到不同程度的错误,从有点错误到真的,真的,真的非常糟糕的错误(又称“再见,薪水;下周见!”)。
好的,假设您使用作为的猜测。仅考虑两种情况:和。首先,您的观察结果非常漂亮且彼此接近。在后者中,您的观察结果差异很大。在哪种情况下,您应该更担心自己的潜在损失?如果您想到第二个,那是对的。估计会非常合理地改变您对下注的信心,因为越大,您可以预期的变化范围就越大。X¯μS2=2S2=20,000,000σ2σ2X¯
但是,除了关于和,您的观察还带有一定数量的纯随机波动,既没有关于也没有关于。 μσ2μσ2
你怎么注意到它?
好吧,为了争辩,我们假设有一个上帝,并且他有足够的空闲时间来给自己一个浮现的微妙之处,即可以特别地告诉您和的真实(至今未知)值。μσ
这是这个麦角酒故事的烦人的情节转折:您下注后,他会告诉您。也许启发你,也许准备你,也许嘲笑你。你怎么知道
好吧,这使得您的观察中包含的有关和的信息现在变得毫无用处。您的观测值的中心位置和方差不再有助于接近和的实际值,因为您已经知道它们了。μσ2X¯S2μσ2
与上帝良好相识的好处之一是,您实际上知道使用未能正确猜测多少,也就是您的估计误差。μX¯(X¯−μ)
好吧,由于,然后(如果可以的话请相信我),还有(好的,也请相信我),最后,
(猜猜是什么?也相信我),它绝对不包含有关或。ˉ X〜Ñ (μ ,σ 2Xi∼N(μ,σ2)X¯∼N(μ,σ2/10)(X¯−μ)∼N(0,σ2/10)
X¯−μσ/10−−√∼N(0,1)
μσ2
你知道吗?如果您将任何单个观测值用作的猜测,则估计误差将分配为。好吧,在用和任何估计之间,选择会更好,因为,所以与单独的相比,不太容易被误入歧途。μ(Xi−μ)N(0,σ2)μX¯XiX¯Var(X¯)=σ2/10<σ2=Var(Xi)X¯μXi
无论如何,也绝对不是或。(Xi−μ)/σ∼N(0,1)μσ2
“这个故事会永远终结吗?” 你可能在想。您可能还会想:“是否还有更多关于和随机波动?”。μσ2
[我更倾向于认为您正在考虑后者。]
就在这里!
您的估计误差为方形与除以,
具有卡方分布,即标准正态的平方的分布,我敢肯定您注意到它绝对没有有关或信息,但传达了有关您应该面对的可变性的信息。μXiσ
(Xi−μ)2σ2=(Xi−μσ)2∼χ2
Z2Z∼N(0,1)μσ2
这是一个众所周知的分布,自然而然地产生于您对十个观测值中的每个观测值都存在赌博问题的情形,也源自您的平均值:
以及从您的十个观测值的变化集合:
现在,最后一个人没有卡方分布,因为他是这些卡方分布中十个的总和,它们彼此独立(因为
(X¯−μ)2σ2/10=(X¯−μσ/10−−√)2=(N(0,1))2∼χ2
∑i=110(Xi−μ)2σ2/10=∑i=110(Xi−μσ/10−−√)2=∑i=110(N(0,1))2=∑i=110χ2.
X1,…,X10)。这些单一的卡方分布中的每一个都是对您应该面对的随机变异量的一种贡献,对总和的贡献量大致相同。
每个贡献的值在数学上都不等于其他九个,但是它们在分配中的预期行为都相同。从这个意义上讲,它们是对称的。
这些卡方中的每一个都是对您应该期望的纯随机变化量的一个贡献。
如果您有100个观测值,则上述总和可能会更大,因为它有更多的对接源。
具有相同行为的每个“贡献源”都可以称为自由度。
现在退后一两步,如果需要,请重新阅读前面的段落,以适应您所追求的自由度的突然到达。
是的,每个自由度都可以认为是一个必然发生的可变性单位,不会对或的猜测带来任何改善。μσ2
问题是,您开始依靠这10个等效的可变性来源的行为。如果您有100个观察值,那么您将有100个独立的,行为相同且严格随机波动的来源。
从现在起,这10个卡方的总和称为具有10个自由度的卡方分布,并写为。我们可以描述它从概率密度函数开始可以期望的结果,可以从数学上从那个单一卡方分布的密度数学得出(从现在起,具有一个自由度的方分布,写为),可以从正态分布的密度上算出。χ210χ21
“所以呢?” ---您可能在想---“只有当上帝花时间告诉我他可以告诉我的所有内容中和的值时,这才有好处!”μσ2
确实,如果全能神忙于告诉您和,您仍将拥有10个来源和10个自由度。μσ2
当您背叛上帝并尝试自己独自相处时,事情开始变得怪异(哈哈哈哈;仅现在!),而没想到他会光顾您。
您有和,和估计量。您可以找到更安全的选择。X¯S2μσ2
你可以考虑计算上面的总和和中的地方和:
但这就是与原始金额不同。X¯S2μσ2
∑i=110(Xi−X¯)2S2/10=∑i=110(Xi−X¯S/10−−√)2,
“为什么不?” 两个和的平方内的术语非常不同。例如,您的所有观察结果最终都不可能大于,但在这种情况下,这意味着,但,因为。 μ(Xi−μ)>0∑10i=1(Xi−μ)>0∑10i=1(Xi−X¯)=0∑10i=1Xi−10X¯=10X¯−10X¯=0
更糟糕的是,您可以轻松地(哈哈哈哈;对!)证明至少两个观察值不同时,具有严格的不等式(这很正常)。∑10i=1(Xi−X¯)2≤∑10i=1(Xi−μ)2
“但是等等!还有更多!”
没有标准正态分布,
没有具有一自由度
卡方分布不具有卡方分布10自由度
没有标准正态分布。
Xi−X¯S/10−−√
(Xi−X¯)2S2/10
∑i=110(Xi−X¯)2S2/10
X¯−μS/10−−√
“这一切都没有吗?”
没门。魔法来了!请注意
或等效地
∑i=110(Xi−X¯)2σ2=∑i=110[Xi−μ+μ−X¯]2σ2=∑i=110[(Xi−μ)−(X¯−μ)]2σ2=∑i=110(Xi−μ)2−2(Xi−μ)(X¯−μ)+(X¯−μ)2σ2=∑i=110(Xi−μ)2−(X¯−μ)2σ2=∑i=110(Xi−μ)2σ2−∑i=110(X¯−μ)2σ2=∑i=110(Xi−μ)2σ2−10(X¯−μ)2σ2=∑i=110(Xi−μ)2σ2−(X¯−μ)2σ2/10
∑i=110(Xi−μ)2σ2=∑i=110(Xi−X¯)2σ2+(X¯−μ)2σ2/10.
现在我们回到那些已知的面孔。
第一项具有自由度为10的卡方分布,最后一项具有自由度为(!)的卡方分布。
我们将具有10个独立的均等行为的可变性源的卡方简单地分为两个部分,两个都是正数:一个部分是具有一个可变性源的卡方,而另一部分可以证明(信念飞跃? )也是具有9(= 10-1)个独立的均等行为变异性源的卡方,两个部分彼此独立。
这已经是一个好消息,因为现在有了它的发行。
las,它使用,我们无法访问它(回想起上帝在看着我们的斗争时在逗他开心)。σ2
好吧,
所以
因此
它不是标准正态分布,但其密度可以从标准法线和卡方的密度为自由度。
S2=110−1∑i=110(Xi−X¯)2,
∑i=110(Xi−X¯)2σ2=∑10i=1(Xi−X¯)2σ2=(10−1)S2σ2∼χ2(10−1)
X¯−μS/10−−√=X¯−μσ/10√Sσ=X¯−μσ/10√S2σ2−−−√=X¯−μσ/10√(10−1)S2σ2(10−1)−−−−−−√=N(0,1)χ2(10−1)(10−1)−−−−−√,
(10−1)
一个非常非常聪明的人在20世纪初进行了数学运算[^ 1],并且出于意料之外的结果,他使他的老板成为了烈性黑啤酒行业的绝对世界领导者。我说的是William Sealy Gosset(又名Student;是的,来自分布的那个学生)和Saint James's Gate Brewery(又名Guinness Brewery),我是虔诚的。t
[^ 1]:@whuber在下面的评论中告诉Gosset没有做数学运算,而是猜测!我真的不知道那个时候哪个壮举更令人惊讶。
亲爱的朋友,那是自由度为的分布的起源。标准法线与独立卡方的平方根之比除以其自由度,在无法预测的潮汐图中,最终将描述您在使用样本均值时遇到的估计误差的预期行为估计并使用估计的变异性。t(10−1)X¯μS2X¯
妳去 地毯后面隐藏着大量的技术细节,但不仅仅依靠上帝的干预来危险地押注您的全部薪水。