“所有这些数据点都来自同一分布。”如何进行测试?


16

我觉得以前已经在这里讨论过这个主题,但是我找不到任何具体的东西。再说一次,我也不确定要搜索什么。

我有一维数据集。我假设集合中的所有点均来自同一分布。

我如何检验这个假设?对“该数据集中的观测值来自两个不同的分布”的一般选择进行检验是否合理?

理想情况下,我想确定哪些点来自“其他”分布。由于我的数据是有序的,因此在以某种方式测试切割数据是否“有效”之后,我是否可以确定切割点?

编辑:根据Glen_b的回答,我会对严格正,单峰分布感兴趣。我也对假设分布然后测试不同参数的特殊情况感兴趣。


您所说的“相同分配”是什么意思?是将伽玛观测值视为来自同一分布,还是被视为指数分布之和?
Metariat

+1这是一个很好的问题,让您问自己。
user541686 '16

@Metallica,只要每个观察值都是指数和,我会说它们来自同一分布
shadowtalker

@Mehrdad我没有大学本科以上的正规统计学培训,并且在硕士班里还参加了其他一些杂类课程。如果您查看我的回答历史记录,很显然,我对线性回归了解很多,而对其他东西却了解不多🤐– shadowtalker 2016
07

2
解决此问题的一种可能方法是考虑某种分布类别的有限混合,并查看是否需要多个混合成分来很好地描述数据。但是,问题是是否存在一类分布足以通过单个混合分量来描述“零假设”(例如,如果您使用伽马分布的有限混合,那么这些分布就偏度或尾部而言可能就不够灵活)行为取决于您要执行的操作),同时包含潜在的替代品作为多组分混合物。
比约恩

Answers:


29

想象一下两种情况:

  1. 数据点均来自同一分布-在(16,36)上一致

  2. 数据点来自两个总体的50-50混合:

    一种。人口A,其形状如下:

在此处输入图片说明

b。人口B,形状像这样:

在此处输入图片说明

...使得两者的混合看起来完全像1。

怎么区分他们呢?

无论您为两个总体选择哪种形状,总会有一个形状相同的总体分布。该论点清楚地表明,对于一般情况,您根本无法做到。没有区别的可能。

如果您介绍有关总体的信息(有效的假设),那么通常可能会有一些方法可以进行*,但是一般情况已经死了。

*例如,如果您假设总体是单峰的并且具有足够不同的方式,那么您可以到达某个地方

[添加到问题上的限制不足以避免上述问题的不同版本-我们仍然可以在正半线上以两个单峰分布的50-50混合形式写一个单峰null在正半线上。当然,如果您有一个更具体的null,那么这将不再是一个问题。另外,在我们有能力测试某种混合替代方案之前,应该仍然可以进一步限制替代方案的类别。或者,某些其他限制可能会同时应用于null和替代值,这将使它们与众不同。]


1
谢谢,很好的反例。因此归结为适当限制替代假设,对吗?
shadowtalker's

@ssdecontrol是的,本质上;如果(根据假设)备选方案可与零值区分开,则您有希望进行功效高于显着性水平的检验。
Glen_b-恢复莫妮卡

0

您显然需要掌握一些理论来讨论分布和状态假设以进行测试。将主题分为一个或多个组的东西,以及将测量分开的东西。

你怎么到那儿?我看到三个选择:

  • 如果您已经从主题中知道了这一点,那么您只需要将其翻译成统计假设的语言即可
  • 绘制图表并识别模式成为要测试的假设
  • 列出您可能适合的分布并进行数学实验。概率编程是这里的关键词

然后,练习将使您得出结论,样本中代表一个或多个组,或者只有一个。或根本没有团体。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.