将p值的Monte Carlo模拟应用于卡方检验的规则


9

我想了解chisq.test()R函数中蒙特卡罗模拟的用法。

我有一个具有128个级别/类的定性变量。我的样本数量为26(我无法对更多的“个人”进行抽样)。所以很明显,我将在某些级别上拥有0个“个人”。但是事实是,在127种可能的类别中,我只代表了非常少的类别。我听说要应用卡方检验,每个级别上至少应有5个人(我不完全了解其原因),我认为我必须使用该simulate.p.value选项来进行蒙特卡洛模拟来估计分布并计算一个p值 没有蒙特卡罗模拟,R给我p值< 1e-16。通过蒙特卡洛模拟,它给了我p值4e-5

我尝试使用26个1和101个零的向量来计算p值,并且通过蒙特卡洛模拟,得到的p值为1。

是否可以声明,即使我的样本量与可能分类的数量相比很小,观察到的分布也是如此,使得在实际总体中所有可能分类以相同的概率(1/127)存在的可能性很小?


3
如果您的数据确实是您在26个样本中观察到了26个不同的类别,那么您基本上没有证据支持所有127个类别具有相同概率的假设。这可以通过多项式分布计算来评估。
ub

1
据我所知,要应用卡方检验,我们每个级别至少应有5个人(我不完全了解其原因) ” –不太正确。最初的建议是预期计数,而不是实际计数应至少为5。该规则(现已过时)的目的是试图确保卡方分布合理地近似于离散分布。测试统计。在过去约四十年的时间里,大量建议为“该规则过于严格”。
Glen_b-恢复莫妮卡

Answers:


6

通过搜索,似乎蒙特卡洛模拟的重点是根据随机生成的样本(与测试样本具有相同的大小)来生成参考分布,以便在不满足测试条件时计算p值。

可以在JSTOR上找到的Hope A. J Royal Stat Society Series B(1968)中对此进行了解释。

这是Hope论文的相关报价:

蒙特卡洛重要性检验程序包括将观察到的数据与根据检验假设生成的随机样本进行比较。...假设可以完全指定替代统计假设,则最好使用已知的高效测试代替蒙特卡洛测试程序。但是,并非总是可以使用这样的测试,因为可能无法满足应用测试的必要条件,或者潜在的分布可能是未知的,或者可能难以确定适当的测试标准。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.