像两个样本t检验一样,传统的统计检验集中在试图消除以下假设:两个独立样本的函数之间没有差异。然后,我们选择一个置信度,并说如果均值差超过95%,我们可以拒绝原假设。如果不是,我们“不能拒绝原假设”。这似乎意味着我们也不能接受它。这是否意味着我们不确定原假设是否成立?
现在,我想设计一个假设是两个样本的函数相同的检验(这与假设两个样本不同的传统统计检验相反)。因此,我的原假设是两个样本不同。我应该如何设计这样的测试?简单地说,如果p值小于5%,我们可以接受没有显着差异的假设吗?
像两个样本t检验一样,传统的统计检验集中在试图消除以下假设:两个独立样本的函数之间没有差异。然后,我们选择一个置信度,并说如果均值差超过95%,我们可以拒绝原假设。如果不是,我们“不能拒绝原假设”。这似乎意味着我们也不能接受它。这是否意味着我们不确定原假设是否成立?
现在,我想设计一个假设是两个样本的函数相同的检验(这与假设两个样本不同的传统统计检验相反)。因此,我的原假设是两个样本不同。我应该如何设计这样的测试?简单地说,如果p值小于5%,我们可以接受没有显着差异的假设吗?
Answers:
传统上,零假设是一个点值。(通常为,但实际上可以是任何点值。)另一种假设是,真值是除null值以外的任何值。由于连续变量(例如均值差)可以取一个无限接近零值但仍不完全相等的值,从而使零假设为假,因此无法证明传统的点零假设。
假设您的零假设为,而观察到的平均差为0.01。假设原假设为真是否合理?你还不知道 了解我们的置信区间应该会有所帮助。比方说,你的95%的置信区间为(- 4.99 ,5.01 )。现在,我们是否应该得出结论,真实值为0?我不愿意这么说,因为CI很宽,而且我们可能会合理地怀疑有很多大的非零值与我们的数据一致。假设我们收集了更多的数据,现在观察到的均值差为0.01,但95%CI是。观察到的均值差保持不变(如果确实发生,那将是惊人的),但是置信区间现在不包括空值。当然,这只是一个思想实验,但它应该使基本思想清晰。我们永远不能证明真实值是任何特定的点值。我们只能(可能)证明它是某个点值。在统计假设检验中,p值> 0.05(并且95%CI包括零)这一事实意味着我们不确定原假设是否成立。
对于您的具体情况,您无法构建检验,其中替代假设为均值差为,零假设为零以外的任何值。这违反了假设检验的逻辑。这是您的实质性科学假设,这是完全合理的,但在假设检验情况下,它不能成为您的替代假设。
所以,你可以做什么?在这种情况下,您将使用等效测试。(您可能想通过单击等效标记来通读我们在该主题上的一些帖子。)典型的策略是使用两侧测试方法。非常简短地,您选择一个间隔,在该间隔内您将认为真实均值差也可能为尽您所能,然后执行一个单面测试以确定观察值是否小于该间隔的上限,然后执行另一个单面测试以查看其值是否大于该下限。如果这两个测试均很重要,则您已拒绝了真实值超出您所关注的区间的假设。如果一个(或两个)都不重要,则您无法拒绝真实值在时间间隔之外的假设。
例如,在区间内假设任何事情是如此接近零,你认为这是基本相同的零达到你的目的,所以你使用它作为您的实质性的假设。现在,假设您获得了上述第一个结果。虽然0.01落在该间隔内,您将无法在任一单边t检验上拒绝原假设,因此您将无法拒绝原假设。另一方面,假设您获得了上述第二个结果。现在,您发现观测值落在指定的间隔内,并且可以显示它既小于上限又大于下限,因此可以拒绝空值。(值得注意的是,可以拒绝都假设,即真实值是,并且假设,即真实值位于外侧的间隔的(- 0.02 ,0.02 ),乍一看似乎很困惑,但与假设检验的逻辑完全一致。)
考虑零假设的情况,即一个硬币为2头,即正面的概率为1。现在的数据是一次抛硬币并看到正面的结果。这将导致p值为1.0,该值大于每个合理的alpha。这是否意味着硬币是2头的?可能是,但也可能是一个公平的硬币,由于偶然的缘故,我们看到了正面(将50%的时间用公平的硬币发生)。因此,在这种情况下,较高的p值表示观察到的数据与零值完全一致,但也与其他可能性一致。
就像在法庭上作出“无罪”判决一样,这意味着被告无罪,也可能是因为被告有罪,但证据不足。对于无效假设,我们同样无法拒绝,因为无效可能为真,或者可能是我们没有足够的证据可以拒绝,即使它为假。
如果我们有两个样本,我们期望它们分布均匀,那么我们的原假设是样本相同。如果我们有两个样本(我们希望它们是(野生)不同),那么我们的原假设是它们是不同的。