假设零假设为真,则将P值定义为至少获得与所观察到的极端一样的检验统计量的概率。换一种说法,
set.seed(0)
# Generate bi-modal distribution
bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5))
hist(bimodal, breaks=100)
并假设我们观察到的测试统计值为60。在这里,从图片中我们知道该值是不太可能的。因此,理想情况下,我希望使用一个统计过程(例如p值)来揭示这一点。但是,如果我们按照定义的p值进行计算,则会得到相当高的p值
observed <- 60
# Get P-value
sum(bimodal[bimodal >= 60])/sum(bimodal)
[1] 0.7991993
如果我不知道分布,我将得出结论,我观察到的仅仅是偶然的机会。但是我们知道这是不对的。
我想我要问的问题是:为什么在计算p值时,为什么要计算“至少与所观察值一样极端”的值的概率?如果遇到上面模拟的情况,替代解决方案是什么?