为什么经常采用高斯分布?


14

引自维基百科上有关朴素贝叶斯分类器参数估计的文章:“一个典型的假设是,与每个类关联的连续值均根据高斯分布进行分布。”

我了解出于分析原因,高斯分布很方便。但是,还有其他现实世界中的原因可以做这种假设吗?如果人口由两个子群体(聪明/愚蠢的人,大/小苹果)组成,该怎么办?


5
也许由于中心极限定理,高斯分布确实适合许多(尽管不是全部)对物理现象的测量?对于子种群,可能会得到混合的高斯分布。
Dilip Sarwate'2

1
同一部分(我假设您正在看的是Naive Bayes文章)指出,如果您不知道分布,则分箱可能是一个更好的主意。某人可能应该编辑维基百科的文章,以使人更加清楚,如果他可以争论高斯的原因(例如,绘制数据或遵循CLT的加法模式),则只能假设高斯。
rm999 2012年

Answers:


6

至少对我来说,正常性的假设来自两个(非常有力的)原因:

  1. 中心极限定理。

  2. 高斯分布是最大熵(相对于香农熵的连续形式)分布。

我认为您已经了解了第一点:如果您的样本是许多过程的总和,那么只要满足一些温和条件,分布就几乎是高斯分布的(实际上存在CLT的概括,实际上您并没有必须假设和的rvs分布相同,例如参见Lyapunov CLT。

第二点是对于某些人(特别是物理学家)更有意义的一点:给定分布的第一和第二时刻,相对于连续香农熵测度(即在连续情况下多少有些武断,但至少对我而言,在离散情况下完全客观,但这是另外一个故事)是高斯分布。这是所谓的“最大熵原理”的一种形式,它没有那么广泛,因为熵形式的实际用法在某种程度上是任意的(有关此度量的更多信息,请参阅Wikipedia文章)。

μΣ

PD:根据本文,我必须添加最大熵原理,如果您偶然知道变量的变化范围,则必须对通过最大熵原理获得的分布进行调整。


3

我的回答与第一响应者一致。中心极限定理告诉您,如果您的统计是一个总和或平均值,则在某些技术条件下,无论单个样本的分布如何,它都将近似于正常水平。但是,有时候人们只是因为它看起来很方便而把它推得太远了,这是对的。如果您的统计数据是比率,并且分母可以为零或接近该比率,则该比率对于法线而言将过于繁琐。Gosset发现,即使从正态分布中抽样,也就是将样本标准差用于归一化常数的归一化平均值,当n为样本量时,分布就是t分布,自由度为n-1。在吉尼斯啤酒厂的现场实验中,他的样本量可能在5-10之间。在那些情况下,t分布与标准正态分布相似,因为它是关于0对称的,但尾部较重。注意,随着n变大,t分布确实会收敛到标准正态。在许多情况下,您的分布可能是双峰的,因为它是两个总体的混合。有时,这些分布可以适合于正态分布的混合。但是它们肯定看起来不像正态分布。如果您看一本基础统计学教科书,您会发现许多参数连续分布和离散分布,这些分布经常会出现推理问题。对于离散数据,我们提供二项式,泊松,几何,超几何和负二项式。连续的例子包括卡方,对数正态,柯西,负指数,威布尔和古贝尔。


2

使用CLT证明使用高斯分布是合理的,因为CLT适用于样本均值,而不适用于单个观察值。因此,增加样本量并不意味着样本更接近于标准。

常用高斯分布是因为:

  1. 最大似然估计很简单。
  2. 贝叶斯推理很简单(使用共轭先验或Jeffreys型先验)。
  3. 它在大多数数字程序包中实现。
  4. 关于假设检验,有很多关于这种分布的理论。
  5. 缺乏其他选择的知识(更灵活)。...

当然,最好的选择是使用考虑到您的上下文特征的分布,但这可能具有挑战性。但是,这是人们应该做的事情

“一切都应该尽可能简单,但不要简单。” (艾尔伯特爱因斯坦)

我希望这有帮助。

最好的祝愿。


为什么要下票?这个解释有什么反对意见?
lmsasu 2012年

4
“使用CLT证明使用高斯分布是合理的,这是一个常见的谬误,因为将CLT应用于样本均值”本身就是一个谬论。例如,导体中的电子随机运动。每个电子上的电荷会产生一个净噪声电压(称为热噪声),该电压可以在导体的各个端子上测量。每个贡献很小,有很多电子,因此通过CLT,噪声被建模为高斯随机过程。该模型已在众多实验研究中得到交叉验证。
Dilip Sarwate '02

1
第一段令人困惑,似乎离题。应用CLT时,我们经常说分布是高斯分布的,因为每个观察值都是许多过程的总和/均值。如果删除第一段,我认为这将是一个很好的答案。
rm999 2012年

1
@ rm999“如果删除第一段,我认为这将是一个很好的答案”。实际上,第一段答案的关键,因为其余部分仅指出了高斯模型在分析上是有帮助的(OP已经理解了),并且对所提出的问题没有任何反应。
Dilip Sarwate 2012年

1
@Dilip:(+1)一个很好的答案的核心出现在您的第一条评论中。请考虑在单独的帖子中对此进行扩展。
主教
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.