为什么有这么多自然现象遵循正态分布?


29

我认为这是一个引人入胜的话题,但我并不完全理解。物理定律是什么使得那么多自然现象具有正态分布?看起来它们具有统一的分布似乎更加直观。

我很难理解这一点,并且感到缺少一些信息。有人可以为我提供很好的解释或将我链接到书/视频/文章吗?



7
您是否有确凿的理由认为您的前提确实如此?
Glen_b-恢复莫妮卡

4
实际上,正态分布可能不是自然界中的“主要”分布。有许多现象和行为被极端重视,被拖尾或描述幂律功能。Gabaix在他的论文《经济学中的幂定律:简介》中记录了该分配类别的许多经济和金融变体,此处 涉及... pages.stern.nyu.edu/~xgabaix/papers/pl-jep.pdf Shalizi等等 在本文中讨论他们的经验估计经验数据中的幂律分布,在此处脱颖而出
Mike Hunter

谁告诉你正态分布仍然占主导地位?
shadowtalker '16

1
@DJohnson +1了链接,但必须指出的是Clauset等人的一项重要发现。本文的观点是,没有太多的经验幂律分布得到有力的支持!引用调查结果,“在仅一种情况下(英语文本中单词出现频率的分布),幂定律看起来确实令人信服,因为它非常适合数据,并且任何替代方法都没有任何意义。重量。”
Sycorax说恢复Monica

Answers:


31

让我从否认前提开始。罗伯特·吉里(Robert Geary)于1947年说“ ……正态性是一个神话;从来没有,而且永远不会有正态分布。 ”-
正态分布是一个模型*,一个正态分布。这种近似有时或多或少有用。

*(关于它,请参阅George Box,尽管我更喜欢个人资料上的版本)。

某些现象近似正常可能并不令人感到意外,因为如果有很多现象,并且没有一个与之相比具有显着差异,那么独立的[或什至不是太强相关的效应]的总和应该会出现。我们可能会看到的其余部分的总和看起来更正常。

中心极限定理(这意味着在某些温和条件下,当趋于无穷大时,标准化样本均值趋于正态分布的收敛)至少表明,如果样本量足够大但有限,我们可能会看到这种正态性趋势。n

当然,如果标准化的手段是近似正常的,标准化的和将是;这就是“多种影响之和”推理的原因。因此,如果对变化的贡献很小,并且它们之间的相关性不高,则可能会看到它。

Berry-Esseen定理为我们提供了一个有关iid数据的标准化样本均值(在比CLT更严格的条件下,因为它要求第三绝对矩是有限的)实际发生的声明(向正态分布收敛)。以及告诉我们发生的速度有多快。该定理的后续版本处理总和中的不完全相同的分布分量,尽管偏离正态性的上限不太严格。

从形式上讲,具有相当好的分布的卷积的行为为我们提供了其他(尽管密切相关)的理由,使我们怀疑在许多情况下它可能倾向于有限样本中的一个公平近似。卷积是一种“拖尾”运算符,使用跨各种内核的内核密度估计的人会很熟悉。一旦对结果进行了标准化(因此每次执行此操作,方差就保持不变),则随着您反复进行平滑处理,显然会朝着越来越对称的山形过渡(并且每次更改内核都没关系)。

陶(Terry Tao)在这里对中央极限定理和Berry-Esseen定理的版本进行了很好的讨论,并一路提到了非独立版本的Berry-Esseen的方法。

因此,至少有一种情况我们可能希望看到它,并且有正式的理由认为它真的会在这些情况下发生。但是,从任何意义上说,“许多影响的总和”的结果将是正常的,这只是一个近似值。在许多情况下,这是一个相当合理的近似值(并且在其他情况下,即使分布的近似值并不接近,某些假设正态性的过程对单个值的分布也不是特别敏感,至少在大样本中是如此)。

在许多其他情况下,效果不会“增加”,我们可能会期望发生其他事情。例如,在许多财务数据中,效果往往是成倍增加的(效果将以百分比为单位移动金额,例如利率,通胀和汇率)。在那里,我们不期望出现正态性,但是有时我们可能会在对数刻度上观察到近似于正态性。在其他情况下,即使从粗略的意义上讲,它们都不是合适的。例如,事件间的时间通常不能通过日志的正态性或正态性很好地估计;这里没有争论的“和”或“乘积”。在特定情况下,我们还可以针对其他种类的“法律”提出许多其他观点。


12
+1。您的论点开始暗示-在我看来,这很可能是合理的-这个问题可能有心理上的答案,例如集体思维:当您所在领域的每个人都看到正态分布时,您会说其他什么呢?对于那些将统计程序视为行人工具的调查领域,这尤其有用,这也许是使一份论文得以发表的必要条件,但除此之外却没有内在的价值或兴趣。
ub

2
举一个具体的例子,当Quetelet发明BMI(身体质量指数)时,他明确地以产生正态分布量的方式这样做。我们谈到这里:stats.stackexchange.com/questions/64171/...
马特·克劳斯

在我看来,每个人都在回避这个问题而不是回答它。
Digio

Geary是一名统计学家,所以难怪他认为常态是神话。如果他是物理学家,他会有所不同。
Aksakal

评论不作进一步讨论;此对话已转移至聊天
Glen_b-恢复莫妮卡

20

庞加莱(Poincaré)所说,加布里埃尔·利普曼Gabriel Lippmann)(诺贝尔奖获得者,物理学家)有句名言:

不能通过严格的推导获得[正态分布]。它的一些推定证据非常糟糕。尽管如此,正如Lippmann先生一天告诉我的那样每个人都相信它,因为实验者认为它是一个数学定理,而数学家却把它看作是一个实验事实。

-庞加莱,乐演算DESProbabilités。1896年

[cette loi] ne s'ob'ient pas par des des deductions rigoureuses; 加上唐纳大区人民群众的《示威游行》。Tout le monde和croit的拥护者,我对M. Lippmann感到厌恶,这是汽车专家对数学的想象,以及数学上对事实的实验。

看来我们的“统计报价列表”线程中没有此报价,这就是为什么我认为将其张贴在此处会很好的原因。


否决票?这里有人暗中讨厌Poincare吗?
变形虫说恢复莫妮卡

我的物理知识以我在高中时学到的知识为结尾,但是高斯最初不是在物理学的正态方程的背景下研究分布吗?我的维基百科印象是,高斯误差自然会从某些经典物理模型中掉出来
shadowtalker'Aug

2
作为这一主题的作者,我们应该更多地向Lippmann 致敬。Gabriel Lippmann是诺贝尔物理学奖的获得者。(M.这里只是意味着先生,naturellement。)
尼克考克斯

3
@ssdecontrol我记得,高斯对正常的观测误差感兴趣,特别是在天文学和大地测量学方面,但很聪明,知道该假设是有问题的。(例如,他还使用与中位数的绝对中位数绝对值作为1816
Nick Cox

公平,@ Nick。我编辑来澄清。
变形虫说恢复莫妮卡

7

物理定律是什么使得那么多自然现象具有正态分布?看起来它们具有统一的分布似乎更加直观。

正态分布在自然科学中很常见。通常的解释是,为什么它是通过某种形式的大数或中心极限定理(CLT)推理在测量误差中发生的,通常是这样的:“因为实验结果受到无数来源的无数干扰的影响,CLT表明错误将以正态分布”。例如,这是WJ Metzger的“ 数据分析中统计方法”的摘录:

实际上,我们测量的大多数是许多rv的总和。例如,您用标尺测量表的长度。您测量的长度取决于许多小的影响:光学视差,标尺的校准,温度,您的握手等。数字仪表在其电路的各个位置都有电子噪声。因此,您测量的不仅是您要测量的,而且还添加了许多(希望)小的贡献。如果小额捐款的数量很大,则CLT会告诉我们它们的总和是高斯分布的。通常是这种情况,这就是解析函数通常是高斯函数的原因。

但是,您必须知道,这当然并不意味着每个发行版都是正常的。例如,泊松分布在处理计数过程时在物理学中很常见。在光谱学中,柯西(又名Breit Wigner)分布用于描述辐射光谱的形状等。

我在写完这篇文章后就意识到了这一点:到目前为止提到的所有三个分布(高斯分布,泊松分布,柯西分布)都是稳定分布,泊松是离散稳定分布。现在,我想到了这一点,它似乎具有一种重要的分布质量,可以使其在聚合中幸存下来:如果您从泊松中添加一堆数字,则总和就是泊松。这可能(在某种意义上)“解释”了为什么它如此普遍存在的原因。

在非自然科学中,由于多种原因,必须非常小心地应用正态分布(或任何其他分布)。特别是相关性和依赖性是一个问题,因为它们可能会破坏CLT的假设。例如,在金融领域,众所周知,许多系列看起来很正常,但尾部却较重,这在风险管理中是一个大问题。

最后,在自然科学中,具有正态分布的原因比我早些时候提到的“挥手”推理更为坚实。考虑一下布朗运动。如果冲击是真正独立且无穷大的,则由于CLT,可观察路径的分布不可避免地将具有正态分布,请参见例如爱因斯坦著名著作“ 布朗运动理论研究”中的等式(10)。他甚至都没有用今天的名字“ Gaussian”或“ normal”来称呼它。

另一个例子是量子力学。碰巧的是,如果坐标和力矩的不确定性来自于正态分布,则总不确定性达到最小值,即海森堡的不确定性阈值,请参见此处的方程235-237 。ΔxΔpΔxΔp

因此,来自不同领域的研究人员对高斯分布使用的反应截然不同,不要感到惊讶。在某些领域(例如物理学)中,基于非常坚实的理论并有大量观测值支持,某些现象有望自然地与高斯分布相关联。在其他领域,使用正态分布是因为其技术便利,方便的数学属性或其他可疑原因。


1
+1。报价是合理的,但是可以注意到,测量的长度不能为负(即有界),因此不能真正遵循正态分布。它始终是一个近似值。
变形虫说恢复莫妮卡

非自然科学?您是说像弗兰肯斯坦博士那样邪恶的实验?;-)
Sycorax说应

1
@ user777,这是诺贝尔奖获得者Landau笑话:“科学可以分为三种类型:自然的,非自然的和反自然的”
Aksakal,2016年

@Aksakal:我认为此特定链接有误;兰道说,科学被分为“科学”(而不是“科学”)。不知道如何翻译。
变形虫说恢复莫妮卡

@amoeba,我正在将“неестественные”翻译为“非自然”。我认为“сверхъестественные”是“超自然的”。也许俄罗斯人可以纠正我。
Aksakal

2

这里有很多过于复杂的解释...

与我有关的一个好方法是:

  1. 滚动单个骰子,滚动每个数字的可能性均等(1-6),因此PDF不变。

  2. 掷两个骰子并将结果求和在一起,PDF不再恒定。这是因为存在36个组合,并且总和范围是2到12。2的似然是1 +1的唯一奇异组合。12的可能性也很独特,因为它只能出现在6 + 6的单个组合中。现在看7,有多个组合,即3 + 4、5 + 2和6 +1(及其反向排列)。当您远离中间值(即7)时,对于6和8等的组合将更少,直到您获得2和12的奇异组合。此示例不会导致明显的正态分布,但更多的死亡您添加的样本数量越多,结果趋向于正态分布。

  3. 因此,当您对一系列随机变化的自变量求和时(每个变量可以有自己的PDF),结果输出趋向于正态。以六个西格玛的术语来说,这给了我们所谓的“过程之声”。这就是我们所说的系统“常见原因变化”的结果,因此,如果输出趋于正常,则我们将此系统称为“统计过程控制”。如果输出是非正常的(偏斜或偏移),那么我们说系统会受到“特殊原因变化”的影响,其中存在某些“信号”以某种方式使结果产生偏差。

希望能有所帮助。


1

物理定律是什么使得那么多自然现象具有正态分布?

不知道。另一方面,我也不知道这是真的还是“这么多”的意思。

但是,稍微重新布置问题,就有充分的理由假设(即建模)您认为具有均值和方差具有正态分布的连续量。那是因为正态分布是在那些力矩约束下最大化熵的结果。由于从广义上讲,熵是不确定性的量度,因此使正态成为分布形式的最不确定的或最大不确定性的选择。

现在,一个人应该通过在已知约束条件下最大化其熵来选择一种分布的想法,确实在实现它们的可能方式的数量方面确实有一些物理学上的支持。Jaynes的统计力学是此处的标准参考。

请注意,虽然在这种情况下,最大熵激励正态分布,但可以显示不同种类的约束导致不同的分布族,例如,熟悉的指数,泊松,二项式等。

Sivia and Skilling 2005第5章进行了直观的讨论。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.