我觉得以前已经在这里讨论过这个主题,但是我找不到任何具体的东西。再说一次,我也不确定要搜索什么。
我有一维数据集。我假设集合中的所有点均来自同一分布。
我如何检验这个假设?对“该数据集中的观测值来自两个不同的分布”的一般选择进行检验是否合理?
理想情况下,我想确定哪些点来自“其他”分布。由于我的数据是有序的,因此在以某种方式测试切割数据是否“有效”之后,我是否可以确定切割点?
编辑:根据Glen_b的回答,我会对严格正,单峰分布感兴趣。我也对假设分布然后测试不同参数的特殊情况感兴趣。
我觉得以前已经在这里讨论过这个主题,但是我找不到任何具体的东西。再说一次,我也不确定要搜索什么。
我有一维数据集。我假设集合中的所有点均来自同一分布。
我如何检验这个假设?对“该数据集中的观测值来自两个不同的分布”的一般选择进行检验是否合理?
理想情况下,我想确定哪些点来自“其他”分布。由于我的数据是有序的,因此在以某种方式测试切割数据是否“有效”之后,我是否可以确定切割点?
编辑:根据Glen_b的回答,我会对严格正,单峰分布感兴趣。我也对假设分布然后测试不同参数的特殊情况感兴趣。
Answers:
想象一下两种情况:
数据点均来自同一分布-在(16,36)上一致
数据点来自两个总体的50-50混合:
一种。人口A,其形状如下:
b。人口B,形状像这样:
...使得两者的混合看起来完全像1。
怎么区分他们呢?
无论您为两个总体选择哪种形状,总会有一个形状相同的总体分布。该论点清楚地表明,对于一般情况,您根本无法做到。没有区别的可能。
如果您介绍有关总体的信息(有效的假设),那么通常可能会有一些方法可以进行*,但是一般情况已经死了。
*例如,如果您假设总体是单峰的并且具有足够不同的方式,那么您可以到达某个地方
[添加到问题上的限制不足以避免上述问题的不同版本-我们仍然可以在正半线上以两个单峰分布的50-50混合形式写一个单峰null在正半线上。当然,如果您有一个更具体的null,那么这将不再是一个问题。另外,在我们有能力测试某种混合替代方案之前,应该仍然可以进一步限制替代方案的类别。或者,某些其他限制可能会同时应用于null和替代值,这将使它们与众不同。]