(1)统计量是您可以从样本中计算出的数字。它用于对您可能获得的所有样本进行排序(在假定的模型下,硬币不会落在其边缘以及您拥有什么)。如果是从实际样本中计算出的值,&T是相应的随机变量,则p值由
在零假设。原则上,“大于”与“更极端”并不重要。对于法线均值的双向测试,我们可以使用
但是使用
因为我们有适当的表格。(请注意加倍。)ŤŤħ 0P - [R(Ť≥ 吨)H02 分钟[ P - [R (Ž ≥ Ž ),P - [R (Ž ≤ Ž )]P r( | Z| ≥ | ž| )2 分钟[ P - [R (ž≥ ž),P - [R (ž≤ ž)]
在原假设下,不需要检验统计量按概率对样本进行排序。在某些情况下(例如Zag的示例),其他任何方法似乎都是错误的(没有更多关于度量,与什么样的差异最令人感兴趣的信息,等等),但是经常使用其他标准。因此,您可以使用双峰PDF获取测试统计信息,并仍使用上述公式测试。H 0 H 0[RH0H0
(2)是的,它们表示在下。H0
(3)诸如“正面频率不为0.5”之类的零假设是没有用的,因为您将永远无法拒绝它。它是一个复合空值,其中包括“磁头的频率为0.49999999”,或者尽可能接近。不管您是否事先认为硬币是否公平,您都会选择一个有用的零假设来解决这个问题。实验之后,可能更有用的是计算磁头频率的置信区间,以表明您显然不是一个公平的硬币,或者它足够接近公平,或者您需要进行更多的试验来找出答案。
(1)的插图:
假设您要测试10次抛硬币的公平性。有可能的结果。这是其中的三个:210
H H H H H H H H H HH HH T H T H T H T HTH H T H H H T T T H
您可能会同意我的观点,即前两个看起来有点可疑。然而,空值下的概率是相等的:
P r( H H H H H H H H H H H)= 11024P r( H T H T H T H T H T)= 11024P r( H H T H H H T T T H)= 11024
要到达任何地方,您需要考虑要测试的null替代类型。如果您准备在null和替代情况下假设每次掷球都是独立的(&在实际情况下,这通常意味着非常努力地确保实验试验是独立的),则可以将杆头总数用作测试统计信息而不会丢失信息。(以这种方式对样本空间进行分区是统计学所做的另一项重要工作。)
所以你的计数在0到10之间
t<-c(0:10)
其在null下的分布为
p.null<-dbinom(t,10,0.5)
在最适合数据的替代版本下,如果您看到(说)十分之三的概率,则概率为,因此310
p.alt<-dbinom(t,10,t/10)
取null下的概率与替代方案下的概率之比(称为似然比):
lr<-p.alt/p.null
与之比较
plot(log(lr),p.null)
因此,对于此null,两个统计顺序的采样方式相同。如果您以0.85的零值重复(即测试磁头的长期运行频率为85%),则不会。
p.null<-dbinom(t,10,0.85)
plot(log(lr),p.null)
看看为什么
plot(t,p.alt)
在替代方案中,某些值不太可能,并且似然比检验统计量已将此考虑在内。注意:此测试统计数据对于Ť
H T H T H T H T H T
很好-从某些角度来看,每个样本都可以视为极端。您可以根据与您希望能够检测到的null的差异类型选择测试统计信息。
……继续这种思路,您可以定义一个统计数据,对样本空间进行不同的划分,以测试相同的空值,而不用一枚硬币抛掷影响另一枚硬币。调用运行次数,这样[R
H H T H H H T T T H
具有:r = 6
H H T H H H T T T H
可疑的顺序
H T H T H T H T H T
有。也是r = 10
T H T H T H T H T H
而在另一个极端
HHHHHHHHHHTTTTTTTTTT
有。使用空值下的概率作为检验统计量(您喜欢的方式),您可以说样本的p值r=1
HTHTHTHTHT
因此为。值得注意的是,将该测试与之前的测试进行比较,即使您严格遵守空值下概率给出的排序,定义测试统计量以划分样本空间的方式也取决于对替代方法的考虑。41024=1256