为什么经常采用高斯分布？

引自维基百科上有关朴素贝叶斯分类器参数估计的文章：“一个典型的假设是，与每个类关联的连续值均根据高斯分布进行分布。”

我了解出于分析原因，高斯分布很方便。但是，还有其他现实世界中的原因可以做这种假设吗？如果人口由两个子群体（聪明/愚蠢的人，大/小苹果）组成，该怎么办？

normal-distribution

— 姆萨苏
source

也许由于中心极限定理，高斯分布确实适合许多（尽管不是全部）对物理现象的测量？对于子种群，可能会得到混合的高斯分布。

— Dilip Sarwate'2

同一部分（我假设您正在看的是Naive Bayes文章）指出，如果您不知道分布，则分箱可能是一个更好的主意。某人可能应该编辑维基百科的文章，以使人更加清楚，如果他可以争论高斯的原因（例如，绘制数据或遵循CLT的加法模式），则只能假设高斯。

— rm999 2012年

相关：mathdl.maa.org/images/upload_library/22/Allendoerfer/…–

— Elvis，

Answers:

至少对我来说，正常性的假设来自两个（非常有力的）原因：

中心极限定理。
高斯分布是最大熵（相对于香农熵的连续形式）分布。

我认为您已经了解了第一点：如果您的样本是许多过程的总和，那么只要满足一些温和条件，分布就几乎是高斯分布的（实际上存在CLT的概括，实际上您并没有必须假设和的rvs分布相同，例如参见Lyapunov CLT。

第二点是对于某些人（特别是物理学家）更有意义的一点：给定分布的第一和第二时刻，相对于连续香农熵测度（即在连续情况下多少有些武断，但至少对我而言，在离散情况下完全客观，但这是另外一个故事）是高斯分布。这是所谓的“最大熵原理”的一种形式，它没有那么广泛，因为熵形式的实际用法在某种程度上是任意的（有关此度量的更多信息，请参阅Wikipedia文章）。

$\vec{\mu}$ $\mathbf{\Sigma}$

PD：根据本文，我必须添加最大熵原理，如果您偶然知道变量的变化范围，则必须对通过最大熵原理获得的分布进行调整。

— 内斯托
source

我的回答与第一响应者一致。中心极限定理告诉您，如果您的统计是一个总和或平均值，则在某些技术条件下，无论单个样本的分布如何，它都将近似于正常水平。但是，有时候人们只是因为它看起来很方便而把它推得太远了，这是对的。如果您的统计数据是比率，并且分母可以为零或接近该比率，则该比率对于法线而言将过于繁琐。Gosset发现，即使从正态分布中抽样，也就是将样本标准差用于归一化常数的归一化平均值，当n为样本量时，分布就是t分布，自由度为n-1。在吉尼斯啤酒厂的现场实验中，他的样本量可能在5-10之间。在那些情况下，t分布与标准正态分布相似，因为它是关于0对称的，但尾部较重。注意，随着n变大，t分布确实会收敛到标准正态。在许多情况下，您的分布可能是双峰的，因为它是两个总体的混合。有时，这些分布可以适合于正态分布的混合。但是它们肯定看起来不像正态分布。如果您看一本基础统计学教科书，您会发现许多参数连续分布和离散分布，这些分布经常会出现推理问题。对于离散数据，我们提供二项式，泊松，几何，超几何和负二项式。连续的例子包括卡方，对数正态，柯西，负指数，威布尔和古贝尔。

— 迈克尔·R·切尼克
source

使用CLT证明使用高斯分布是合理的，因为CLT适用于样本均值，而不适用于单个观察值。因此，增加样本量并不意味着样本更接近于标准。

常用高斯分布是因为：

最大似然估计很简单。
贝叶斯推理很简单（使用共轭先验或Jeffreys型先验）。
它在大多数数字程序包中实现。
关于假设检验，有很多关于这种分布的理论。
缺乏其他选择的知识（更灵活）。...

当然，最好的选择是使用考虑到您的上下文特征的分布，但这可能具有挑战性。但是，这是人们应该做的事情

“一切都应该尽可能简单，但不要简单。” （艾尔伯特爱因斯坦）

我希望这有帮助。

最好的祝愿。

— 托尼
source

为什么要下票？这个解释有什么反对意见？

— lmsasu 2012年

“使用CLT证明使用高斯分布是合理的，这是一个常见的谬误，因为将CLT应用于样本均值”本身就是一个谬论。例如，导体中的电子随机运动。每个电子上的小电荷会产生一个净噪声电压（称为热噪声），该电压可以在导体的各个端子上测量。每个贡献很小，有很多电子，因此通过CLT，噪声被建模为高斯随机过程。该模型已在众多实验研究中得到交叉验证。

— Dilip Sarwate '02

第一段令人困惑，似乎离题。应用CLT时，我们经常说分布是高斯分布的，因为每个观察值都是许多过程的总和/均值。如果删除第一段，我认为这将是一个很好的答案。

— rm999 2012年

@ rm999“如果删除第一段，我认为这将是一个很好的答案”。实际上，第一段是答案的关键，因为其余部分仅指出了高斯模型在分析上是有帮助的（OP已经理解了），并且对所提出的问题没有任何反应。

— Dilip Sarwate 2012年

@Dilip：（+1）一个很好的答案的核心出现在您的第一条评论中。请考虑在单独的帖子中对此进行扩展。

— 主教