科学家如何找出正态分布概率密度函数的形状?


36

这可能是一个业余问题,但我对科学家如何提出正态分布概率密度函数的形状感兴趣?基本上让我感到烦恼的是,对于某人而言,正态分布数据的概率函数具有等腰三角形而不是钟形曲线的形状可能更直观,并且您如何向这样的人证明概率密度函数为所有正态分布的数据都呈钟形吗?通过实验?还是通过一些数学推导?

毕竟,我们实际上考虑的是正态分布的数据?遵循正态分布或其他形式的概率模式的数据吗?

基本上我的问题是为什么正态分布概率密度函数具有钟形而不是其他形状?科学家如何通过实验或研究各种数据本身的性质来找出可应用于正态分布的现实场景?


因此,我发现此链接对于解释正态分布曲线的函数形式的推导确实很有帮助,因此回答了“为什么正态分布看起来像它,而没有其他任何东西?”的问题。至少对我来说,是真正令人难以置信的推理。


2
看看这个问题 -声称只有正态分布是“钟形”是不正确的。
银鱼

11
正态分布具有一些非常重要的统计属性,这使其成为特殊的研究对象,并且还意味着它经常“自然地”出现,例如作为其他分布的极限情况。特别是请参见中心极限定理。但是,这并不是唯一在中间达到峰值并在两侧都有尾巴的分布。人们通常认为这些数据是正常的,因为直方图“看起来像钟形”,但是我的链接答案显示了此类数据集还有许多其他候选分布。
银鱼

4
请注意,统计人员并没有通过查看许多数据集来发现正态分布,并且从经验上认识到此密度函数对许多数据集都非常合适。如您所想,您可能会对概率论中的某些问题进行数学研究,正态分布会对此“弹出”。例如,这里的答案对此作了很好的解释。
银鱼

3
基本上,如果有人要我向他们解释为什么正态分布是“正态”的,我需要向他们解释正态分布的历史,这种历史本身是漫长而复杂的,从二项式分布开始,等等。证明中心极限定理,并证明正态分布适用于研究现实生活中的许多情况。
ahra

5
您可以使用称为Galton板的这些精美设备之一可视化正态分布的形状。实际上,这是一个二项分布,但是,您知道中心极限定理。
Federico Poloni

Answers:


21

正态分布的演变由Saul STAHL”是信息的回答几乎所有在您的文章中问题的最佳来源。为了方便起见,我会列举几点,因为您会在本文中找到详细的讨论。

这可能是一个业余问题

不,对于使用统计信息的任何人来说,这都是一个有趣的问题,因为标准课程的任何地方都没有对此进行详细介绍。

基本上让我感到烦恼的是,对于某人而言,正态分布数据的概率函数具有等腰三角形而不是钟形曲线的形状可能更直观,并且您如何向这样的人证明概率密度函数为所有正态分布的数据都呈钟形吗?

从纸上看这张照片。它显示了辛普森在发现高斯(正态)以分析实验数据之前提出的误差曲线。因此,您的直觉是正确的。

在此处输入图片说明

通过实验?

是的,这就是为什么它们被称为“误差曲线”的原因。实验是天文测量。天文学家为测量误差而奋斗了几个世纪。

还是通过一些数学推导?

再次,是的!长话短说:对天文数据错误的分析使高斯转向了他的正态分布。这些是他使用的假设:

在此处输入图片说明

顺便说一句,拉普拉斯使用了几种不同的方法,并且在处理天文数据时也提出了他的分布:

在此处输入图片说明

关于为什么正态分布在实验中显示为测量误差,以下是物理学家通常给出的“手动波形”解释(引自Gerhard Bohm,GünterZech,物理学家统计和数据分析简介第85页):

许多实验信号非常接近正态分布。这是由于它们由许多贡献之和和中心极限定理的结果组成。


2
Stahl的参考文献从提出的角度非常着眼于原始问题,这是一个非常不错的发现。
银鱼

44

您似乎在问题中假设正态分布的概念在确定分布之前就已经存在,人们试图找出正态分布的含义。我不清楚这将如何工作。[编辑:至少有一种感觉,我们可能会认为存在“寻找分布”,而不是“寻找描述了很多现象的分布”。

不是这种情况; 该分布在称为正态分布之前就已经知道。

您如何向这样的人证明所有正态分布数据的概率密度函数呈钟形

正态分布函数是通常具有“钟形”的东西-所有正态分布都具有相同的“形状”(就它们而言,仅在比例和位置上有所不同)。

数据在分布中看起来或多或少呈“钟形”,但这并不正常。许多非正态分布看起来类似“钟形”。

尽管有时是相当合理的近似值,但从中提取数据的实际总体分布可能永远不会是正态的。

对于我们应用于现实世界中的事物的几乎所有分布,通常都是如此-它们是模型,而不是关于世界的事实。[例如,如果我们做出某些假设(用于泊松过程的假设),我们可以推导泊松分布-一种广泛使用的分布。但是,这些假设是否曾经完全满足?通常,我们可以说的(在正确的情况下)最好的是它们几乎是正确的。

我们实际上认为正态分布的数据是什么?遵循正态分布或其他形式的概率模式的数据吗?

是的,要实际分布为正态分布,从中抽取样本的总体必须具有正态分布的确切函数形式的分布。结果,任何有限的人口都不可能是正常的。必定有界的变量不能是正态的(例如,特定任务花费的时间,特定事物的长度不能为负,因此它们实际上不能呈正态分布)。

可能更直观的是,正态分布数据的概率函数具有等腰三角形的形状

我不明白为什么这一定更直观。这当然更简单。

当最初开发误差分布模型(特别是早期的天文学)时,数学家考虑了各种与误差分布有关的形状(包括一个早期的三角形分布),但在许多工作中,它是数学的(宁可比直觉)。例如,拉普拉斯研究了双指数分布和正态分布(在其他分布图中)。相似地,高斯几乎同时使用数学来推导它,但是与拉普拉斯所考虑的因素不同。

从狭义上讲,拉普拉斯和高斯正在考虑“错误分布”,我们至少可以将其视为“寻找分布”。两者都假定了一些错误分布的属性,这些错误分布被认为是重要的(随着时间的推移,Laplace认为一系列标准有所不同)导致了不同的分布。

基本上我的问题是为什么正态分布概率密度函数具有钟形而不是其他形状?

事物的功能形式称为法线密度函数,就赋予了该形状。考虑标准法线(为简单起见;每个其他法线具有相同的形状,只是比例和位置有所不同):

fZ(z)=ke12z2;<z<

(其中只是一个选择为使总面积为1的常数)k

这定义了每个值处的密度值,因此它完全描述了密度的形状。这个数学对象就是我们附加标签“正态分布”的东西。名字没有什么特别的。这只是我们附加到发行版的标签。它有很多名字(仍然被不同的人称为不同的事物)。x

尽管有些人认为正态分布某种程度上是“正常的”,但实际上,仅在特定情况下,您甚至倾向于将其视为近似值。


通常将分布的发现记入de Moivre(作为二项式的近似值)。实际上,当他尝试近似二项式系数(/二项式概率)以近似原本繁琐的计算时,他实际上推导了函数形式,但是-尽管他确实有效地推导了正态分布的形式,但他似乎并没有考虑到他的近似为概率分布,尽管有些作者确实建议他这样做。需要一定数量的解释,因此该解释存在差异的范围。

高斯和拉普拉斯在1800年代初就做了研究。高斯(Gauss)于1809年(与之相关的是均值是中心的MLE的分布)和拉普拉斯(Laplace)于1810年对此进行了描述,以近似对称随机变量之和的分布。十年后,拉普拉斯给出了中心极限定理的早期形式,用于离散变量和连续变量。

供配电早期名称包含错误的法律,在错误的频率的规律,也被两个拉普拉斯和高斯命名,有时联合。

1870年代的三位不同作者(皮尔士,雷克西斯和高尔顿)使用“正态”一词独立地描述了分布,第一位作者于1873年,另两位作者于1877年。距高斯和拉普拉斯(Laplace)的市盈率是de Moivre逼近以来的两倍以上。高尔顿对它的使用可能是最有影响力的,但他在1877年的那本书中仅使用了一次“正常”一词(通常称其为“偏差定律”)。

然而,在1880年代,高尔顿多次使用与分布相关的形容词“正态”(例如1889年的“正态曲线”),进而对英国后来的统计学家产生了很大的影响(尤其是卡尔·皮尔森) )。他没有说为什么用这种方式使用“正常”一词,但是大概是在“典型”或“通常”的意义上说的。

短语“正态分布”的第一个明确用法似乎是卡尔·皮尔森(Karl Pearson);他当然在1894年就使用过它,尽管他声称使用它已经很久了(我会谨慎考虑这一说法)。


参考文献:

米勒(Jeff Miller),
“一些数学词汇的最早已知用法:”
正态分布(约翰·奥尔德里奇的条目)
http://jeff560.tripod.com/n.html

Stahl,Saul(2006),
“正态分布的演变”,《
数学杂志》,第1卷。79,第2号(4月),第96-113页
https://www.maa.org/sites/default/files/pdf/upload_library/22/Allendoerfer/stahl96.pdf

正态分布,(2016年8月1日)。
在维基百科,免费百科全书中。
2016年8月3日12:02,从https://en.wikipedia.org/w/index.php?title=Normal_distribution&oldid=732559095#History检索

Hald,A(2007年),
“ De Moivre对二项式的正态近似,1733年及其推广”,载
于:从伯努利到费舍尔的参数统计推断的历史,1713-1935年;第17-24页

[您可能会注意到这些来源之间在其对德莫伊弗的解释方面存在重大差异]


感谢您的深入解答!我进一步研究了正态分布的形状是如何得出的,并且找到了此文件course.ncssm.edu/math/Talks/PDFS/normal.pdf,我在理解如何假定误差不取决于坐标系的方向(这个假设可以在以后提供重要的结论),在我看来,这种假设仅适用于飞镖的示例,而不适用于偶然的实验错误的示例。
ahra

实际上,整个飞镖方法使我感到困惑,因为我在偶然的实验错误的情况下研究正态分布。我猜想dart方法假设您可以在两个维度上犯独立错误,这在所使用的上下文中还可以,但是我不清楚在有一个因变量和一个独立变量的实验错误的情况下它将如何转换这意味着您只能在一个维度上犯错误。
ahra

1
大量使用参考资料。+1
亚伦音乐厅

2
我认为“中心极限定理”应该在这里提到,因为OP似乎(至少部分地)在问为什么这种特殊分布如此普遍。
2016年

1
@joc我没有看到有关流行率的问题,甚至没有提出关于它的问题。但是,我确实谈到了与二项式有关的de Moivre的工作,以及与对称随机变量之和的正态近似有关的Laplace的工作……与问题直接相关。但是,我将添加一个有关拉普拉斯在该问题上的工作的句子(尽管在另一个世纪中,它不会被称为该句子)。
Glen_b

11

“正态”分布定义为该特定分布。

问题是,为什么我们期望这种特殊的分布在本质上是通用的,为什么即使实际数据并不完全遵循该分布,也经常将其用作近似值?(经常发现真实数据有“胖尾巴”,即,远离平均值的值比正态分布所预测的要普遍得多)。

换句话说,正态分布有什么特别之处?

法线具有很多“很好”的统计属性,(请参阅例如https://en.wikipedia.org/wiki/Central_limit_theorem),但是与IMO最相关的事实是,对于具有给定的均值和方差。https://en.wikipedia.org/wiki/Maximum_entropy_probability_distribution

为了用普通语言表达,如果仅给出分布的均值(中心点)和方差(宽度),并且不承担任何其他假设,则将被迫绘制正态分布。其他任何内容(例如,Shannon信息论)都需要其他信息(例如偏度)来确定它。

最大熵原理是由ET Jaynes提出的,它是确定贝叶斯推理中合理先验的一种方法,我认为他是第一个引起这一性质的注意的人。

对此进行进一步讨论,请参见:http : //www.inf.fu-berlin.de/inst/ag-ki/rojas_home/documents/tutorials/Gaussian-distribution.pdf


6
“换句话说,如果只给定分布的均值(中心点)和方差(宽度),并且不承担任何其他假设,则将被迫绘制正态分布。” 我猜这取决于“强迫”的定义。您可能会被迫。我不会。您所描述的在道德上等同于在不知道函数形式的情况下被“强制”为线性函数,或者在不知道其确切依赖性时认为随机变量是独立的。我没有,也没有,也不会被迫做出任何这些假设。
Mark L. Stone,

5
@尼尔,我相信马克的观点的一部分可能是称不是强迫。
ub

5
@Neil离它远!首先,您必须假设最大熵原理是有用的,并且适用于您的统计问题。接下来,您必须绝对确定没有其他关于分布的假设。这两个都是有问题的。(在理论物理学领域之外,我遇到的大多数统计问题都不是正确的;而在后者的情况下,我从未见过现实世界的问题。)
笨拙

1
@尼尔马克和胡布。我试图澄清这一段。我认为“什么都不做”是对最大熵原理试图做的合理的普通语言解释。作为普通语言,您当然可以对其进行不同的解释。这就是为什么我们需要数学。更准确的说法是,就香农而言,我们没有添加任何信息。链接进一步解释了这一点。
Gareth

1
@gareth统一所有实数的分布(我认为您在最新评论中表示)是非常不正确的分布。您认为最大熵是导致正态分布的驱动力,这是一个主要假设。为什么它比假设其他因素(例如最小射程)更有力?
亨利

3

正态分布(又名“ 高斯分布 ”)具有坚实的数学基础。该中心极限定理说,如果你有一组有限的n个独立同分布具有特定的均值和方差的随机变量,你取平均值的随机变量,结果的分布将收敛到高斯分布正去无穷大。这里没有猜测,因为数学推导导致了这个特定的分布函数,而没有其他。

为了更明确地说明这一点,请考虑一个随机变量,例如掷出一枚公平硬币(2种可能的结果)。获得特定结果的机率是头部为1/2,而尾部为1/2。

如果您增加硬币的数量并跟踪每次试验获得的正面总数,则将得到二项分布,其形状大致为钟形。只需画出沿x轴的头数以及沿y轴翻转那么多头的次数即可。

您使用的硬币越多,翻转硬币的次数越多,该图表看起来就越像高斯钟形曲线。这就是中央极限定理所主张的。

令人惊讶的是,只要每个随机变量具有相同的分布,该定理就不会取决于随机变量的实际分布方式。该定理中的一个关键思想是您要对随机变量求和或求平均值。另一个关键概念是该定理描述了随机变量的数量越来越大的数学极限。您使用的变量越多,分布越接近于正态分布。

如果您想了解数学家如何确定正态分布实际上是钟形曲线的数学上正确的函数,我建议您参加“​​数学统计”课程。


感谢您的贡献。如果您要解释总和(或均值)的分布必须标准化,那将是正确的 否则,和的分布不接近极限,均值的分布接近常数。但是,该帖子如何回答提出的问题?(诚​​然,提出了各种各样的问题,它们都令人困惑和模糊,但是他们似乎在询问如何发现或推导高斯PDF的公式。)
whuber

2

这个线程有一些很好的答案。我不禁感到OP并没有问每个人都想回答的问题。不过,我明白了,因为这几乎是要回答的最令人兴奋的问题之一-我实际上找到了它,是因为我希望有人提出以下问题:“我们怎么知道普通PDF是PDF?” 然后我搜寻了 但是我认为这个问题的答案可能是证明正态分布的起源。

nnnpnp(1p)n

np0np=1

n=10p=0.5n=100p=0.5n

如果我现在将100个硬币丢在地上并计算我得到多少个头,我可能会数0个头,或者我可能会数100个头,但我更有可能计算介于两者之间的数字。您知道为什么这个直方图应该呈钟形吗?


+1-但是,请注意,我在回答的几个部分中讨论了德莫夫。您可能会在我的答案中找到与参考文献中的差异有关的最后注释,这很有趣-值得一看de Moivre所写的内容,以了解他的作品的不同特征在多大程度上得以保持。在为什么二项分布呈钟形的
Glen_b

1

还将从两个假设中提及独立多元正态分布的Maxwell-Herschel推导:

  1. 分布不受矢量旋转的影响。

  2. 载体的成分是独立的。

这是杰恩斯的展览

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.