我想了解chisq.test()
R函数中蒙特卡罗模拟的用法。
我有一个具有128个级别/类的定性变量。我的样本数量为26(我无法对更多的“个人”进行抽样)。所以很明显,我将在某些级别上拥有0个“个人”。但是事实是,在127种可能的类别中,我只代表了非常少的类别。我听说要应用卡方检验,每个级别上至少应有5个人(我不完全了解其原因),我认为我必须使用该simulate.p.value
选项来进行蒙特卡洛模拟来估计分布并计算一个p值 没有蒙特卡罗模拟,R给我p值< 1e-16
。通过蒙特卡洛模拟,它给了我p值4e-5
。
我尝试使用26个1和101个零的向量来计算p值,并且通过蒙特卡洛模拟,得到的p值为1。
是否可以声明,即使我的样本量与可能分类的数量相比很小,观察到的分布也是如此,使得在实际总体中所有可能分类以相同的概率(1/127)存在的可能性很小?
3
如果您的数据确实是您在26个样本中观察到了26个不同的类别,那么您基本上没有证据支持所有127个类别具有相同概率的假设。这可以通过多项式分布计算来评估。
—
ub
“ 据我所知,要应用卡方检验,我们每个级别至少应有5个人(我不完全了解其原因) ” –不太正确。最初的建议是预期计数,而不是实际计数应至少为5。该规则(现已过时)的目的是试图确保卡方分布合理地近似于离散分布。测试统计。在过去约四十年的时间里,大量建议为“该规则过于严格”。
—
Glen_b-恢复莫妮卡