数据正态分布的原因


19

有哪些定理可以解释(即生成)为什么现实世界中的数据可以正态分布?

我知道有两个:

  1. 中心极限定理(当然),它告诉我们具有均值和方差(即使它们的分布不相同)的几个独立随机变量的总和也倾向于正态分布

  2. 令X和Y为具有不同密度的独立连续RV,以使它们的联合密度仅取决于 +。那么X和Y是正常的。X2ÿ2

(来自mathexchange的跨帖子)

编辑: 为澄清起见,我对正态分布的真实世界数据没有任何主张。我只是在问一些定理,这些定理可以洞察什么样的过程可能导致数据呈正态分布。


7
您可以在stats.stackexchange.com/questions/4364的线程中找到有趣的相关材料。为了避免某些读者之间的潜在混淆,我想补充一点(我希望这是您的意图),不应将您的问题理解为暗示所有或什至大多数实际数据集都可以通过正态分布适当地近似。相反,在某些情况下,当某些条件成立时,采用正态分布作为理解或解释数据的参考框架可能会很有用:那么这些条件可能是什么?
whuber

谢谢你的链接!这是完全正确的,谢谢您的澄清。我将其编辑为原始帖子。
匿名

@ user43228,“ 在现实世界中,当然还有很多其他发行版,看起来根本不正常。askamathematician.com/2010/02/…– Pacerier 2015
6

Answers:


16

离散RV的许多极限分布(泊松,二项式等)近似正态。想想plinko。在几乎所有具有近似正态性的情况下,正态性仅适用于大样本。

大多数实际数据不是正态分布的。Micceri(1989)发表的一篇名为“ 独角兽,法线曲线和其他不可能的生物 ”的论文研究了440种大规模成就和心理测评方法。他发现分布随其时刻的变化很大,并且没有太多(甚至近似)正态性的证据。

斯蒂文·斯蒂格勒(Steven Stigler)于1977年发表的一篇论文《使用真实数据进行鲁棒估计器》中,他使用了从18世纪著名的测量地球到太阳的距离以及19世纪的测量光速的尝试收集的24个数据集。他在表3中报告了样本偏斜和峰度。数据是重尾的。

在统计中,我们经常假设正态性,因为它使最大可能性(或其他方法)方便。但是,上面引用的两篇论文表明,这种假设通常是微不足道的。这就是为什么鲁棒性研究有用的原因。


2
这篇文章的大部分内容都很棒,但是引言部分让我感到困扰,因为它很容易被误解。这似乎是说-而明确-在一般情况下,一个“大样本”将目光正态分布。鉴于您随后的发言,我认为您并不是真的要这么说。
whuber

我应该更加清楚-我并不是在建议大多数现实世界的数据都是正态分布的。但这是一个很好的提出。我假设您的意思是n大的二项分布是正态的,而均值大的泊松分布是正态的。还有哪些其他分布趋于正态?
2014年

谢谢,我编辑了第一段。例如,有关置换下线性形式的定理,请参见Wald和Wolfowitz(1944)。即,他们显示置换下的两个样本t统计量是渐近正态的。
bsbk 2014年

采样分布不是“现实世界的数据集”!也许我在发帖中出现明显不一致的困难是由于分布和数据之间的这种混淆造成的。也许是由于您对实际的“限制”过程缺乏清晰的认识。
whuber

3
最初的问题是关于“一般性地”解释正常现实数据是如何产生的。可以想象,实际数据可能是通过二项式或泊松过程生成的,二者都可以通过正态分布来近似。操作人员要求提供其他示例,然后想到的是排列分布,这是渐近正常的(在没有联系的情况下)。我想不出一种可以从该分布生成实际数据的临时方法,因此可能只是一个延伸。
bsbk 2014年

10

使用正态分布也有一个信息理论上的依据。给定均值和方差,在所有实值概率分布中,正态分布具有最大的熵。有大量资料讨论此属性。在这里可以找到一个简短的内容。有关使用高斯分布的动机的更一般性讨论,涉及到目前为止提到的大多数论点,可以在《信号处理》杂志的这篇文章中找到。


6
据我了解,这是倒退。这是关于如何在严格定义的意义上使正常假设成为弱假设。我看不到现实数据的含义。您可能还认为曲线通常是笔直的,因为这是您可以对曲率做出的最简单的假设。认识论不限制本体!如果您引用的参考文献超出此范围,请说明参数。
Nick Cox 2014年

3

在物理学中,通常将CLT称为许多测量中具有正态分布误差的原因。

实验物理学中两个最常见的误差分布是正态分布和泊松分布。后者通常在计数测量中遇到,例如放射性衰变。

这两个分布的另一个有趣特征是,来自高斯和泊松的随机变量之和属于高斯和泊松。

有对实验科学统计的几本书,如一个:格哈德·博姆,君特·撒迦利亚,介绍统计和物理学家数据分析,ISBN 978-3-935702-41-6


0

当对诸如人口均值之类的东西进行推断时,CLT非常有用,因为我们可以通过计算一堆个体测量值的某种线性组合来到达那里。但是,当我们尝试对单个观测值,尤其是将来的观测值(例如,预测间隔)进行推断时,如果我们对分布的尾部感兴趣,则偏离正态性将变得更为重要。例如,如果我们有50个观测值,那么当我们说出未来观测值与均值至少有3个标准差的概率时,我们就在进行很大的推断(和信念的飞跃)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.