我想知道是否有任何统计检验可以“检验”双峰分布的重要性。我的意思是,我的数据是否满足双峰分布?如果是这样,R程序中是否有测试?
我想知道是否有任何统计检验可以“检验”双峰分布的重要性。我的意思是,我的数据是否满足双峰分布?如果是这样,R程序中是否有测试?
Answers:
解决此问题的另一种可能方法是考虑在后台生成您所看到的数据的情况。也就是说,您可以根据混合模型(例如,高斯混合模型)来考虑。例如,您可能认为您的数据是从单一正态总体或两种正态分布(按一定比例)混合而成的,均值和方差不同。当然,您不必相信只有一两个,也不必相信从中得出数据的总体必须是正常的。
(至少)有两个R包可让您估计混合模型。一个软件包是flexmix,另一个是mclust。估计了两个候选模型后,我相信有可能进行似然比检验。或者,您可以使用参数自举交叉拟合方法(pdf)。
如评论中所述,“双峰分布”的Wikipedia页面列出了针对单峰的多峰测试八项,并为其中的七项提供了参考。
R中至少有一些。例如:
该软件包diptest
执行Hartigan的浸入测试。
软件包中的stamp
数据bootstrap
已在Efron和Tibshirani的Bootstrap简介(该软件包所基于的书)中使用,以做一个有关模式数量自举的示例。如果您有权使用该书,则可以使用该方法。
Efron,B.和Tibshirani,R.(1993)的简介。
查普曼和霍尔,纽约,伦敦。
-
关于简历,有一个问题是关于识别(即估计而不是测试) @whuber搜索出现的模式数量。值得在那里阅读答案。那里的一个响应(偶然发生的)有一个指向Google搜索的链接,David Donoho撰写了这篇论文,提出了针对模式数量构造单面CI的方法,当然可以将其用作测试(例如,如果单边间隔不包含单峰情况,则可以拒绝单峰)。据我所知不是维基百科提到的测试之一。我认为没有该间隔的R实现,但是(尽管Donoho在讨论中倾向于使用相当复杂的工具)实际上是一个非常简单的想法。这个想法与使用内核密度估计的概念直接相关。