为什么所有已知分布都是单峰的?


13

我不知道任何多峰分布。

为什么所有已知分布都是单峰的?是否有不止一种模式的“著名”发行版?

当然,分布的混合通常是多峰的,但是我想知道是否存在任何不止一种具有多个模式的分布。


5
你说的是“标准”的分布,而不是“知”的分布。
斯特凡纳·洛朗

12
如何测试与?α=β=0.5
变形虫说恢复莫妮卡

1
如果您不介意有限制的双峰分布,则Wikipedia还会提及U-二次分布反正弦分布。我认为这些只是beta分布的特例,尽管...维基百科还提到了自然出​​现的多峰分布的一些示例
Nick Stauner 2014年

12
@StéphaneLaurent:我喜欢“品牌分布”,它表达了被命名本身并不意味着该分布具有任何特殊的地位。“已知”分布听起来好像其余部分可能在附近等待发现的地方,例如尼斯湖怪兽或暗物质。
Scortchi-恢复莫妮卡

5
优秀的@Scortchi,很棒的词汇!我遇到的许多非数学家科学家的印象是,不存在没有名字的分布。也许背后还有一个更深层次的相关哲学事实,一个名字和用这个名字表示的事物的混淆(正如罗素所说,“狗”一词与狗不相似,)
史蒂芬·洛朗

Answers:


17

在问题的注释中回答了问题的第一部分:大量的“品牌”分布是多峰的,例如a < 1b < 1的任何Beta 分布。然后,让我们转到问题的第二部分。(a,b)a<1b<1

所有离散分布显然都是(单峰原子的)混合物。

我将证明大多数连续分布也是单峰分布的混合。这背后的直觉很简单:我们可以一张一张地“抛开”颠簸的PDF图形中的凹凸,直到图形变为水平。凸点成为混合成分,每个成分显然都是单峰的。

因此,除了某些PDF高度不连续的异常分布外,问题的答案是“无”:绝对连续,离散或这两者的组合的所有多峰分布都是单峰分布的混合。


考虑其PDF f连续的连续分布(这些是“绝对连续”分布)。(连续性不是一个很大的限制;仅假设不连续点是离散的,可以通过更仔细的分析来进一步放松它。) Ff

为了应对可能出现的常数的“平稳”状态,请将“模式”定义为间隔 (可能是x l = x u的单点),这样m=[xl,xu]xl=xu

  1. 对恒定值 ÿfm,y

  2. 在严格包含 m的任何间隔上不是常数。fm

  3. 存在一个正数,使得在[ x l - ϵ x u + ϵ ]上获得的f的最大值等于yϵf[xlϵ,xu+ϵ]y

f的任何模式。因为˚F是连续的,有间隔[ X ' X ' ù ]含有为其˚F在非降[ X ' X ](这是一个适当的间隔,而不仅仅是一个点)和非增在[ X üX ' ù ]m=[xl,xu]ff[xl,xu]mf[xl,xl][xu,xu](这也是一个适当的时间间隔)。让是所有这些值的infinimum和X ' ü上确界所有这些价值。xlxu

这种结构具有上的图形定义的一个“驼峰” 延伸自X ' X ' ü。让ÿ是较大˚F X ' ˚F X ' Ú。通过构造,点的集合X[ X ' X ' ù ]为其˚F X ý是一个适当的间隔'fxlxuyf(xl)f(xu)x[xl,xu]f(x)ym严格含有(因为它包含任一整个的[ X ' X ][ X üX ' ù ])。m[xl,xl][xu,xu]

数字

在该图示中的多峰PDF,一个模式的是通过在横轴上的红色点识别。填充的红色部分的水平范围是间隔':它是由模式确定的驼峰的基部。该驼峰的碱是在高度ý 0.16。原始的PDF是红色填充和蓝色填充的总和。请注意,蓝色填充仅在2附近具有一种模式;原始模式在[ 0 0 ]已被删除。m=[0,0]mmy0.162[0,0]

写作对于m '的长度,定义|m|m

pm=PrF(m)y|m|

fm(x)=f(x)ypm

当且否则。(一下,这使成为连续函数。)分子是升高到以上的量,分母是和的图之间的面积。因此,为非负数,且总面积为:这是概率分布的PDF。通过构造,它具有唯一的模式。˚F X = 0 ˚F ˚F ý p ˚F ý ˚F 1 xmfm(x)=0fmfypmfyfm1m

同样通过构造,功能

fm(x)=f(x)pmfm(x)1pm

是提供的PDF。(很明显,如果,则上什么也没有它必须是单峰的。)此外,它在区间中没有模(常数是常数,这就是为什么以前仔细定义的情况)一个模式作为间隔是必要的)。此外,p m = 1 f m 'pm<1pm=1f,m

f(x)=pmfm(x)+(1pm)fm(x)

是一个混合的单峰PDF的和PDF。˚F ' fmfm

用(作为连续函数的线性组合仍然是连续函数,使我们能够像以前一样进行操作)迭代此过程,生成一系列模式 ; 权重的相应序列 ; 和PDF 存在限制结果是因为(a)将平的间隔包括在先前尚未展平的适当间隔= 12... p 1 = p p 2 = p 2... ˚F 1 = ˚F ˚F 2 = ˚F 2... f i i 1 ffmm=m1,m2,p1=pm,p2=pm2,f1=fm,f2=fm2,.fii1操作和(b)实数不能分解成数量多于此类间隔的数。该限制不能有任何模式,因此为常数,必须为零(否则其积分会发散)。因此,被表示为混合信号(也许不是唯一的,因为选择模式的顺序很重要)f

f(x)=ipifi(x)

单峰分布,QED。


7

就单峰而言,我认为OP明确地意味着只有一种内部模式(即,不包括边角解决方案)。因此,问题实际上是在问……

why is it that brand name distributions do NOT have more than one interior mode?

即为什么大多数品牌名称分布看起来像这样:

在此处输入图片说明

...加上或减去一些偏斜或某些间断?因此,当提出问题时,Beta分布将不是有效的反例。

看来,OP的推测有一定道理:大多数常见的品牌名称分配不允许使用多种内部模式。可能有理论上的原因。例如,由于定义整个家族的父代eqn的结果,作为Pearson家族成员(包括Beta)的任何分布都将必然是(内部)单峰的。培生(Pearson)家族嵌套了大多数最著名的品牌名称。

不过,这里有一些品牌计数器示例...

反例

一个品牌反例是带有pdf 的发行版:Sinc2

f(x)=sin2(x)πx2

在实线上定义。这是 pdf的图:Sinc2

在此处输入图片说明

我们也许还可以添加与此类相关的心电图家族和分布...使用pdf绘图,例如:

在此处输入图片说明

反映品牌名称分布的家族也可能是品牌名称竞争者(尽管,这些可能被认为是“欺诈解决方案”……但它们仍然是品牌名称),例如此处显示的Reflected Weibull:

在此处输入图片说明


1
我的肯定看起来有些负值!(那可能是绘图伪像吗?)……心形分布看起来像它们每个都只有一个内部模式。Sinc2
ub

1
嗨,@ whuber ...必须同意绘图人为因素(我将在Mathematica SE上讨论!)。关于心动过血的家庭:想法是可以随心所欲地扩展此类家庭的范围,并且像正弦波一样,它会不断给予:)
wolfies

1
(+1)这是一个奇怪的伪像:您的最后一张图(具有反射分布)似乎没有展示出来。您可以在绘图中跟踪绘图点的生成,以查看它们的位置。我怀疑轻微的负值可能是少量点样条的超调。Sinc2
ub

我认为这仅仅是因为绘制的线比轴线粗,所以当接近零时似乎会“超出”轴线。如果将该线绘制得更细,则伪影会消失。
狼人

但是,在您的下图中没有这种伪像,该伪像的线条也比轴粗。
whuber

3

您可能不会想到任何东西并不意味着没有任何东西。

我可以命名不是单峰的“已知”分布。

例如,一个和均的Beta分布。β < 1αβ<1

http://en.wikipedia.org/wiki/Beta_distribution

也看到

http://en.wikipedia.org/wiki/U-quadratic_distribution

(尽管有这样的评论,但这并不是beta发行版的特殊情况。但是,这两个家族有些重叠。)

混合物分布当然是已知的,其中许多是多峰的。


U二次方是截断的Beta分布。
becko '18

1

Alpha偏态正态分布(Elal-Olivero 2010)具有PDF:

(1αxμσ)2+12+α2φ(xμσ),

φ

|α|>1.34μ=1,σ=0.5,a=2

在此处输入图片说明

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.