有哪些定理可以解释(即生成)为什么现实世界中的数据可以正态分布?
我知道有两个:
中心极限定理(当然),它告诉我们具有均值和方差(即使它们的分布不相同)的几个独立随机变量的总和也倾向于正态分布
令X和Y为具有不同密度的独立连续RV,以使它们的联合密度仅取决于 +。那么X和Y是正常的。
(来自mathexchange的跨帖子)
编辑: 为澄清起见,我对正态分布的真实世界数据没有任何主张。我只是在问一些定理,这些定理可以洞察什么样的过程可能导致数据呈正态分布。
有哪些定理可以解释(即生成)为什么现实世界中的数据可以正态分布?
我知道有两个:
中心极限定理(当然),它告诉我们具有均值和方差(即使它们的分布不相同)的几个独立随机变量的总和也倾向于正态分布
令X和Y为具有不同密度的独立连续RV,以使它们的联合密度仅取决于 +。那么X和Y是正常的。
(来自mathexchange的跨帖子)
编辑: 为澄清起见,我对正态分布的真实世界数据没有任何主张。我只是在问一些定理,这些定理可以洞察什么样的过程可能导致数据呈正态分布。
Answers:
离散RV的许多极限分布(泊松,二项式等)近似正态。想想plinko。在几乎所有具有近似正态性的情况下,正态性仅适用于大样本。
大多数实际数据不是正态分布的。Micceri(1989)发表的一篇名为“ 独角兽,法线曲线和其他不可能的生物 ”的论文研究了440种大规模成就和心理测评方法。他发现分布随其时刻的变化很大,并且没有太多(甚至近似)正态性的证据。
斯蒂文·斯蒂格勒(Steven Stigler)于1977年发表的一篇论文《使用真实数据进行鲁棒估计器》中,他使用了从18世纪著名的测量地球到太阳的距离以及19世纪的测量光速的尝试收集的24个数据集。他在表3中报告了样本偏斜和峰度。数据是重尾的。
在统计中,我们经常假设正态性,因为它使最大可能性(或其他方法)方便。但是,上面引用的两篇论文表明,这种假设通常是微不足道的。这就是为什么鲁棒性研究有用的原因。
使用正态分布也有一个信息理论上的依据。给定均值和方差,在所有实值概率分布中,正态分布具有最大的熵。有大量资料讨论此属性。在这里可以找到一个简短的内容。有关使用高斯分布的动机的更一般性讨论,涉及到目前为止提到的大多数论点,可以在《信号处理》杂志的这篇文章中找到。