测试双峰分布

30

我想知道是否有任何统计检验可以“检验”双峰分布的重要性。我的意思是，我的数据是否满足双峰分布？如果是这样，R程序中是否有测试？

r hypothesis-testing distributions bimodal

— 保洛克
source

3

您没有通过搜索我们的网站找到答案吗？如果没有，那么缺少什么？

— ub

7

有双峰或多峰测试，但它们往往是单方面的。也就是说，您可以得出诸如“有多个模式”之类的结论，但不能说“有少于三个模式”-您可以在模式数量上获得下限，但实际上无法获得上限，因为可以找到任意数量的模式的多峰分布，它与任意数量的模式的分布任意接近。我将看看是否可以挖掘一些明确的测试或参考。

— Glen_b-恢复莫妮卡

4

关于双峰分布的维基百科页面列出了针对单峰的多峰测试八项，并为其中的七项提供了参考。我不确定R中是否有任何内容。

— Glen_b-恢复莫妮卡

17

解决此问题的另一种可能方法是考虑在后台生成您所看到的数据的情况。也就是说，您可以根据混合模型（例如，高斯混合模型）来考虑。例如，您可能认为您的数据是从单一正态总体或两种正态分布（按一定比例）混合而成的，均值和方差不同。当然，您不必相信只有一两个，也不必相信从中得出数据的总体必须是正常的。

（至少）有两个R包可让您估计混合模型。一个软件包是flexmix，另一个是mclust。估计了两个候选模型后，我相信有可能进行似然比检验。或者，您可以使用参数自举交叉拟合方法（pdf）。

— gung-恢复莫妮卡
source

@gung，您好，对于参数自举交叉拟合方法，您将如何针对双峰分布定义最佳准则？可能存在两个竞争分布在两个点彼此交叉的情况。在这种情况下应该怎么办？

— akashrajkn

32

如评论中所述，“双峰分布”的Wikipedia页面列出了针对单峰的多峰测试八项，并为其中的七项提供了参考。

R中至少有一些。例如：

该软件包diptest执行Hartigan的浸入测试。
软件包中的stamp数据bootstrap已在Efron和Tibshirani的Bootstrap简介（该软件包所基于的书）中使用，以做一个有关模式数量自举的示例。如果您有权使用该书，则可以使用该方法。

Efron，B.和Tibshirani，R.（1993）的简介。
查普曼和霍尔，纽约，伦敦。

-

关于简历，有一个问题是关于识别（即估计而不是测试） @whuber搜索出现的模式数量。值得在那里阅读答案。那里的一个响应（偶然发生的）有一个指向Google搜索的链接，David Donoho撰写了这篇论文，提出了针对模式数量构造单面CI的方法，当然可以将其用作测试（例如，如果单边间隔不包含单峰情况，则可以拒绝单峰）。据我所知不是维基百科提到的测试之一。我认为没有该间隔的R实现，但是（尽管Donoho在讨论中倾向于使用相当复杂的工具）实际上是一个非常简单的想法。这个想法与使用内核密度估计的概念直接相关。

— Glen_b-恢复莫妮卡
source

那是有价值的工作。

— rolando2