正态分布和单调变换


9

我听说自然界中发生的许多数量都是正态分布的。通常使用中心极限定理证明这一点是正确的,该定理表示,当对大量iid随机变量求平均时,将获得正态分布。因此,例如,由大量基因的加和效应决定的性状可能近似正态分布,因为基因值的行为可能大致类似于同义随机变量。

现在,令我困惑的是,在单调变换下,正态分布的特性显然不是不变的。因此,如果有两种方法可以测量与单调变换相关的事物,则它们不可能都呈正态分布(除非单调变换是线性的)。例如,我们可以通过直径,表面积或体积来测量雨滴的大小。假设所有雨滴的形状相似,则表面积与直径的平方成正比,而体积与直径的立方成正比。因此,所有这些测量方法均不能正态分布。

因此,我的问题是,分布确实变为正态的特定缩放方式(即,单调变换的特定选择)是否必须具有物理意义。例如,高度是应该正态分布还是高度的平方,或者高度的对数,或者高度的平方根?有没有一种方法可以通过理解影响身高的过程来回答这个问题?


正如我一直以来所了解的那样,中心极限定理并没有假设要对大量iid随机变量取平均。相反,它指出在抽样均值时,均值的分布变为正态(独立于从其采样的基础的分布)。因此,我怀疑您的问题的前提是否成立。
亨里克

但是,如果采样平均值变为正态而与基础分布的分布无关,那么这与说“对大量iid随机变量进行平均”得到的正态分布不同。在我看来,它们似乎是对等的陈述。

不在我眼中(但我想被说服)。在一种情况下(我认为这是CLT),您从一种分布中抽取样本。他们的手段是正态分布的。我从问题和报价“平均大量iid随机变量”中了解到的是不同的:来自不同iid随机变量的各个实例确定(或组成)特征。因此,没有从单个分布求平均值(即计算平均值),因此没有CLT的应用。我认为mbq的答案指向相同的问题。
亨里克

1
如果某些条件成立,分布就不必相同。请参阅:en.wikipedia.org/wiki/...

1
@Henrik来自N个独立且分布均匀的 RV中的每个样本与单个RV的N个独立测量之间是否存在有意义的差异?
walkytalky

Answers:


5

很好的问题。我认为答案取决于您是否可以确定引起相关测量的基础过程。例如,如果您有证据表明身高是几个因素的线性组合(例如,父母的身高,祖父母的身高等),那么自然就可以假设身高呈正态分布。另一方面,如果您有证据或什至理论认为身高的对数是几个变量(例如,对数父母的身高,祖父母的身高的对数等)的线性组合,则身高的对数将呈正态分布。

在大多数情况下,我们不知道驱动兴趣测量的基础过程。因此,我们可以做以下几件事之一:

(a)如果身高的经验分布看起来是正态的,则我们使用正态密度进行进一步分析,这隐含地假设身高是几个变量的线性组合。

(b)如果经验分布看起来不是正态的,那么我们可以尝试mbq建议的一些变换(例如log(height))。在这种情况下,我们隐式假定转换后的变量(即log(height))是几个变量的线性组合。

(c)如果(a)或(b)没有帮助,那么我们必须放弃CLT和正态假设给我们的优点,并使用其他一些分布对变量进行建模。


5

在可能的情况下,特定变量的重新缩放应与某种可理解的比例有关,因为它有助于使结果模型可解释。然而,所产生的转变不必绝对具有物理意义。本质上,您必须在违反正态性假设与模型的可解释性之间进行权衡。在这种情况下,我想做的是原始数据,以合理的方式转换的数据和以最正常的方式转换的数据。如果以有意义的方式进行转换的数据与以最正常的方式进行转换的结果相同,我以一种可以解释的方式报告它,并附带说明,在最佳转换(和/或未转换)数据的情况下,结果是相同的。当未转换的数据表现特别差时,我会对转换后的数据进行分析,但会尽力以未转换的单位报告结果。

另外,我认为您在陈述中存在一个误解,即“自然界中出现的数量呈正态分布”。这仅在值由“独立因素”决定的情况下才成立。也就是说,均值和总和是正态分布的,而与它们从中得出的基础分布无关,因为各个值不应正态分布。举例来说,来自二项式分布的个人抽签看上去并不完全是正态的,但是来自二项式分布的30个抽签总数的分布确实看起来是正态的。


5

我必须承认,我不太了解您的问题:

  • 您的雨滴示例并不十分令人满意,因为这并未说明高斯行为来自“大量iid随机变量的平均值”的事实。

  • 如果数量 X 您感兴趣的是一个平均值 ÿ1个++ÿññ 以高斯的方式围绕其平均值波动,您也可以期望 Fÿ1个++Fÿññ 具有高斯行为。

  • 如果波动 X 其均值大约是高斯且很小,因此波动 FX 接近其均值(通过泰勒展开)

  • 您能否列举平均得出的(现实生活中)高斯行为的一些真实示例:这不是很常见!高斯行为通常在统计中用作第一近似值,因为计算非常容易处理。由于物理学家使用谐波近似,统计学家使用高斯近似。


最大熵原理也是使用高斯分布的另一个原因。例如,除了可处理性之外,在线性模型中使用高斯误差的充分理由是什么?
Alekk

5

Vipul,您的问题并不完全准确。

通常使用中心极限定理证明这一点是正确的,该定理表示,当对大量iid随机变量求平均时,将获得正态分布。

我不确定这就是您的意思,但是请记住,示例中的雨滴不是iid随机变量。通过对一定数量的那些雨滴进行采样而计算出的平均值是一个随机变量,并且由于使用足够大的样本量来计算平均值,因此该采样平均值的分布是正态的。

大数定律表明,样本均值的值收敛于总体平均值(强或弱取决于收敛类型)。

CLT表示样本均值XM(n)是一个随机变量,具有分布,即G(n)。当n接近无限时,该分布为正态分布。CLT只是关于分配的趋同,而不是基本概念。

您绘制的观测值(直径,面积,体积)根本不必是正常的。如果将它们绘制出来,它们可能不会。但是,来自所有三个观察值的样本均值将具有正态分布。并且,体积将不是直径的立方,面积也不是直径的平方。总和的平方不会是平方和,除非您很幸运。


4

只是CLT(也没有任何其他定理)没有说明宇宙中的每个量都是正态分布的。确实,统计学家经常使用单调变换来改善正态性,因此他们可以使用自己喜欢的工具。


4

我认为您误解了使用统计学家对正态分布所做的(一半)分析,但我真的很喜欢您的问题。

我认为系统地假设正态性不是一个好主意,我承认这是在某个时候完成的(可能是因为正态分布是易处理的,单峰的……)。因此,您对单调图的评论非常好!

但是,当您自己构造新的统计数据时(例如,当您应用期望的经验对数部分时出现的统计数据),就可以使用正态性。因此,经验均值和更普遍的平滑是使常态出现在各处的原因。


2

随机变量及其许多变换都可以近似为正态;实际上,如果与均值相比方差很小,则可能是各种各样的转换看起来很正常。

> a<-rgamma(10000,1000,1000)
> hist(a)
> hist(1/a)
> hist(a^2)
> hist(a^(3/2))

4个直方图显示接近正常

点击查看大图

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.