如果两个均态分布变量的均值相差至少两倍于普通标准偏差,为什么只将它们混合在一起是双峰的?


28

在两个正态分布的混合下:

https://zh.wikipedia.org/wiki/Multimodal_distribution#Mixture_of_two_normal_distributions

“两个正态分布的混合具有五个参数来估计:两个均值,两个方差和混合参数。两个具有标准偏差相等的正态分布的混合只有在其均值相差至少普通标准偏差两倍的情况下才是双峰的。 ”。

我正在寻找关于这为何如此的推论或直观解释。我相信可以用两个样本t检验的形式来解释它:

μ1μ2σp

其中是合并的标准偏差。σp


1
直觉是,如果均值太近,则两个密度的质量将会有太多的重叠,因此均值的差异将不会被看到,因为差异只会随两者的质量而增加密度。如果两种方法的差异足够大,则两种密度的质量将不会重叠那么多,并且两种方法的差异将是可辨别的。但是我想看到对此的数学证明。这是一个有趣的声明。我以前没看过
mlofton

2
更正式地讲,对于具有相同SD \ sigma的两个正态分布的50:50混合σ,如果以完整形式f(x)=0.5g1(x)+0.5g2(x)显示参数的密度f(x)= 0.5g_1(x)+ 0.5g_2(x),您将可以看到,当均值之间的距离从低于2 \ sigma增大2σ到高于均值时,其二阶导数会在两个均值之间的中点更改符号。
BruceET

1
参见“瑞利准则”, en.wikipedia.org
wiki / Angular_resolution#

Answers:


53

来自该Wiki文章中链接的论文的该图提供了一个很好的例证: 在此处输入图片说明

他们提供的证明是基于这样的事实,即正态分布在其平均值的一个SD内是凹形的(SD是正态pdf的拐点,它从凹形变为凸形)。因此,如果将两个标准pdf(按等比例)加在一起,则只要它们的均值相差小于两个SD,则sum-pdf(即混合物)将在两个均值之间的区域内凹入,因此全局最大值必须恰好在两个均值之间。

参考:Schilling,MF,Watkins,AE,和Watkins,W。(2002)。人类身高双峰吗?美国统计学家,第 56卷第3期,第223-229页。doi:10.1198 / 00031300265


11
+1这是一个很好的,令人难忘的论点。
ub

2
图形标题也很好地说明了“ fl”连字在“拐点”中被错误呈现:-P
nekomatic

2
@Axeman:感谢您添加该引用-由于此引文引起了轰动,我一直打算自己添加它,因为我真的只是在重复他们的论点,并且我不想为此付出太多的功劳。
Ruben van Bergen

14

在这种情况下,图片可能具有欺骗性,因为此结果是正常混合物的特殊特征:即使组分是对称单峰分布,类似物也不一定适用于其他混合物!例如,两个学生t分布的均等混合物,其间隔小于其共同标准偏差的两倍,将是双峰的。为了获得真正的洞察力,我们必须做一些数学运算或对正态分布的特殊属性求助。


选择度量单位(通过根据需要进行重新定标和重新缩放)以将分量分布的均值置于并使它们的共同方差统一。令为混合物中较大均值成分的量。这使我们可以将混合物密度完全表示为±μ, μ0,p, 0<p<1,

2πf(x;μ,p)=pexp((xμ)22)+(1p)exp((x+μ)22).

因为两个分量密度在处都增加,而在降低所以唯一可能的模式出现在 通过相对于区分并将其设置为零来找到它们。清除我们获得的任何正系数x<μx>μ,μxμ.fx

0=e2xμp(xμ)+(1p)(x+μ).

用的二阶导数执行类似的运算, 并将替换为前面的公式确定的值,这告诉我们在任何临界点处的二阶导数的符号为fe2xμ

f(x;μ,p)(1+x2μ2)xμ.

由于当时分母为负因此的符号是的符号显然,当符号必须为负。但是,在多峰分布中(因为密度是连续的),任何两个模式之间都必须有一个模式,其中符号为非负数。因此,当小于(SD)时,分布必须是单峰的。μ<x<μ,f(1μ2+x2).μ1,μ1

由于均值的间隔为因此该分析的结论为2μ,

只要均值相差不超过共同标准偏差的两倍,正态分布的混合就是单峰的。

从逻辑上讲,这等效于问题中的陈述。


12

为了保持连续性,从上方粘贴了以上注释

“ [F]通常,对于两个具有相同SDσ的正态分布的50:50混合,如果您用完整形式显示参数的密度,您将看到,当均值之间的距离从低于2σ增大到上方时,其二阶导数会在两个均值之间的中点处改变符号。”

f(x)=0.5g1(x)+0.5g2(x)

评论继续:

在每种情况下,“混合”的两条法线均具有从左到右,均值之间的距离分别为和。均值之间的中点(1.5)处的混合物密度的凹度从负,零变为正。σ=1.3σ,2σ,σ,

在此处输入图片说明

该图的R代码:

par(mfrow=c(1,3))
  curve(dnorm(x, 0, 1)+dnorm(x,3,1), -3, 7, col="green3", 
    lwd=2,n=1001, ylab="PDF", main="3 SD: Dip")
  curve(dnorm(x, .5, 1)+dnorm(x,2.5,1), -4, 7, col="orange", 
    lwd=2, n=1001,ylab="PDF", main="2 SD: Flat")
  curve(dnorm(x, 1, 1)+dnorm(x,2,1), -4, 7, col="violet", 
    lwd=2, n=1001, ylab="PDF", main="1 SD: Peak")
par(mfrow=c(1,3))

1
所有的答案都很棒。谢谢。
mlofton

3
可能值得注意的是,尽管中间图形(“ 2 SD:Flat”)在中心附近看起来是平坦的,但实际上是单峰的,在中心具有全局最大值。“平坦”部分对应于宽度略大于的中央区域,其中密度偏离最大值小于0.001。2/30.001.
水库

1
我以前的评论应该说“凡由小于最大密度的出发的最大的。” 更准确地说,在这种情况下,在中心具有全局最大值(例如,并且而偏离小于的区域的宽度较大,大约为:f x 0f0.1% fx0)0.001
f(x0)f(x)0.001f(x0)  |xx0|0.333433,
0.001˚F X 0- ˚F X 0.0010.95832
f(x0)f(x)0.001  |xx0|0.47916.
res

好点。实际上,我的缩写语言“ flat”的意思是恰好在中点为零的二阶导数。
BruceET
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.