在两个正态分布的混合下:
https://zh.wikipedia.org/wiki/Multimodal_distribution#Mixture_of_two_normal_distributions
“两个正态分布的混合具有五个参数来估计:两个均值,两个方差和混合参数。两个具有标准偏差相等的正态分布的混合只有在其均值相差至少普通标准偏差两倍的情况下才是双峰的。 ”。
我正在寻找关于这为何如此的推论或直观解释。我相信可以用两个样本t检验的形式来解释它:
其中是合并的标准偏差。
在两个正态分布的混合下:
https://zh.wikipedia.org/wiki/Multimodal_distribution#Mixture_of_two_normal_distributions
“两个正态分布的混合具有五个参数来估计:两个均值,两个方差和混合参数。两个具有标准偏差相等的正态分布的混合只有在其均值相差至少普通标准偏差两倍的情况下才是双峰的。 ”。
我正在寻找关于这为何如此的推论或直观解释。我相信可以用两个样本t检验的形式来解释它:
其中是合并的标准偏差。
Answers:
他们提供的证明是基于这样的事实,即正态分布在其平均值的一个SD内是凹形的(SD是正态pdf的拐点,它从凹形变为凸形)。因此,如果将两个标准pdf(按等比例)加在一起,则只要它们的均值相差小于两个SD,则sum-pdf(即混合物)将在两个均值之间的区域内凹入,因此全局最大值必须恰好在两个均值之间。
参考:Schilling,MF,Watkins,AE,和Watkins,W。(2002)。人类身高双峰吗?美国统计学家,第 56卷第3期,第223-229页。doi:10.1198 / 00031300265
在这种情况下,图片可能具有欺骗性,因为此结果是正常混合物的特殊特征:即使组分是对称单峰分布,类似物也不一定适用于其他混合物!例如,两个学生t分布的均等混合物,其间隔小于其共同标准偏差的两倍,将是双峰的。为了获得真正的洞察力,我们必须做一些数学运算或对正态分布的特殊属性求助。
选择度量单位(通过根据需要进行重新定标和重新缩放)以将分量分布的均值置于并使它们的共同方差统一。令为混合物中较大均值成分的量。这使我们可以将混合物密度完全表示为
因为两个分量密度在处都增加,而在降低所以唯一可能的模式出现在 通过相对于区分并将其设置为零来找到它们。清除我们获得的任何正系数
用的二阶导数执行类似的运算, 并将替换为前面的公式确定的值,这告诉我们在任何临界点处的二阶导数的符号为
由于当时分母为负因此的符号是的符号显然,当符号必须为负。但是,在多峰分布中(因为密度是连续的),任何两个模式之间都必须有一个反模式,其中符号为非负数。因此,当小于(SD)时,分布必须是单峰的。
由于均值的间隔为因此该分析的结论为
只要均值相差不超过共同标准偏差的两倍,正态分布的混合就是单峰的。
从逻辑上讲,这等效于问题中的陈述。
为了保持连续性,从上方粘贴了以上注释:
“ [F]通常,对于两个具有相同SDσ的正态分布的50:50混合,如果您用完整形式显示参数的密度,您将看到,当均值之间的距离从低于2σ增大到上方时,其二阶导数会在两个均值之间的中点处改变符号。”
评论继续:
在每种情况下,“混合”的两条法线均具有从左到右,均值之间的距离分别为和。均值之间的中点(1.5)处的混合物密度的凹度从负,零变为正。
该图的R代码:
par(mfrow=c(1,3))
curve(dnorm(x, 0, 1)+dnorm(x,3,1), -3, 7, col="green3",
lwd=2,n=1001, ylab="PDF", main="3 SD: Dip")
curve(dnorm(x, .5, 1)+dnorm(x,2.5,1), -4, 7, col="orange",
lwd=2, n=1001,ylab="PDF", main="2 SD: Flat")
curve(dnorm(x, 1, 1)+dnorm(x,2,1), -4, 7, col="violet",
lwd=2, n=1001, ylab="PDF", main="1 SD: Peak")
par(mfrow=c(1,3))