引自维基百科上有关朴素贝叶斯分类器参数估计的文章:“一个典型的假设是,与每个类关联的连续值均根据高斯分布进行分布。”
我了解出于分析原因,高斯分布很方便。但是,还有其他现实世界中的原因可以做这种假设吗?如果人口由两个子群体(聪明/愚蠢的人,大/小苹果)组成,该怎么办?
引自维基百科上有关朴素贝叶斯分类器参数估计的文章:“一个典型的假设是,与每个类关联的连续值均根据高斯分布进行分布。”
我了解出于分析原因,高斯分布很方便。但是,还有其他现实世界中的原因可以做这种假设吗?如果人口由两个子群体(聪明/愚蠢的人,大/小苹果)组成,该怎么办?
Answers:
至少对我来说,正常性的假设来自两个(非常有力的)原因:
中心极限定理。
高斯分布是最大熵(相对于香农熵的连续形式)分布。
我认为您已经了解了第一点:如果您的样本是许多过程的总和,那么只要满足一些温和条件,分布就几乎是高斯分布的(实际上存在CLT的概括,实际上您并没有必须假设和的rvs分布相同,例如参见Lyapunov CLT。
第二点是对于某些人(特别是物理学家)更有意义的一点:给定分布的第一和第二时刻,相对于连续香农熵测度(即在连续情况下多少有些武断,但至少对我而言,在离散情况下完全客观,但这是另外一个故事)是高斯分布。这是所谓的“最大熵原理”的一种形式,它没有那么广泛,因为熵形式的实际用法在某种程度上是任意的(有关此度量的更多信息,请参阅Wikipedia文章)。
PD:根据本文,我必须添加最大熵原理,如果您偶然知道变量的变化范围,则必须对通过最大熵原理获得的分布进行调整。
我的回答与第一响应者一致。中心极限定理告诉您,如果您的统计是一个总和或平均值,则在某些技术条件下,无论单个样本的分布如何,它都将近似于正常水平。但是,有时候人们只是因为它看起来很方便而把它推得太远了,这是对的。如果您的统计数据是比率,并且分母可以为零或接近该比率,则该比率对于法线而言将过于繁琐。Gosset发现,即使从正态分布中抽样,也就是将样本标准差用于归一化常数的归一化平均值,当n为样本量时,分布就是t分布,自由度为n-1。在吉尼斯啤酒厂的现场实验中,他的样本量可能在5-10之间。在那些情况下,t分布与标准正态分布相似,因为它是关于0对称的,但尾部较重。注意,随着n变大,t分布确实会收敛到标准正态。在许多情况下,您的分布可能是双峰的,因为它是两个总体的混合。有时,这些分布可以适合于正态分布的混合。但是它们肯定看起来不像正态分布。如果您看一本基础统计学教科书,您会发现许多参数连续分布和离散分布,这些分布经常会出现推理问题。对于离散数据,我们提供二项式,泊松,几何,超几何和负二项式。连续的例子包括卡方,对数正态,柯西,负指数,威布尔和古贝尔。
使用CLT证明使用高斯分布是合理的,因为CLT适用于样本均值,而不适用于单个观察值。因此,增加样本量并不意味着样本更接近于标准。
常用高斯分布是因为:
当然,最好的选择是使用考虑到您的上下文特征的分布,但这可能具有挑战性。但是,这是人们应该做的事情
“一切都应该尽可能简单,但不要简单。” (艾尔伯特爱因斯坦)
我希望这有帮助。
最好的祝愿。