假设您有一个由两组(例如,男性和女性)组成的研究,研究了一个数字因变量(例如,智力测验分数),并且您假设没有组差异。
题:
- 有什么好的方法可以测试是否存在小组差异?
- 您将如何确定充分测试无组差异所需的样本量?
初步想法:
- 仅仅进行标准的t检验是不够的,因为不能拒绝原假设就并不意味着关注的参数等于或接近于零。对于小样本尤其如此。
- 我可以查看95%的置信区间,并检查所有值是否都在足够小的范围内;也许正负0.3标准偏差。
假设您有一个由两组(例如,男性和女性)组成的研究,研究了一个数字因变量(例如,智力测验分数),并且您假设没有组差异。
题:
初步想法:
Answers:
我认为您正在询问是否要进行等效性测试。本质上,您需要确定可接受的差异有多大,以便仍然得出结论,两组实际上是等效的。该决定定义了95%(或其他)的置信区间限制,并在此基础上进行了样本量计算。
关于这一主题有一整本书。
非劣效性测试/试验是临床上非常普遍的等效试验。在这种情况下,您“偏爱”一组而不是另一组(已确立的治疗方案),并设计测试以显示在某种程度的统计证据上,新治疗方案不逊于已确立的治疗方案。
我认为我需要将GraphPad.com网站(在“库”下)归功于Harvey Motulsky。
除了已经提到的某种等效测试的可能性外,据我所知,大多数等效测试大多是按照良好的旧常识传统进行的,还有可能进行真正对证据进行量化的测试支持零假设,即贝叶斯检验。
贝叶斯t检验的实现可以在这里找到:Wetzels,R.,Raaijmakers,JGW,Jakab,E.和Wagenmakers,E.-J。(2009)。如何量化对空假设的支持和反对:默认贝叶斯t检验的灵活WinBUGS实现。心理研究与评论,第16期,752-760。
还有一个有关如何在R中完成所有这些操作的教程:
http://www.ruudwetzels.com/index.php?src=SDtest
克鲁施克(Kruschke)在本文中提供了贝叶斯t检验的替代方法(也许是更现代的方法)(带代码):
Kruschke,JK(2013)。贝叶斯估计取代t检验。实验心理学杂志:General,142(2),573–603。doi:10.1037 / a0029146
这个答案的所有道具(在添加Kruschke之前)应该交给我的同事David Kellen。我从这个问题中窃取了他的答案。
equivalence
包的指针。
我知道有几篇文章可能对您有帮助:
Tryon,WW(2001)。使用推论置信区间评估统计差异,等价性和不确定性:进行原假设统计检验的综合替代方法。心理方法,6,6,371-386。(免费PDF)
并进行了更正:
Tryon,WW和Lewis,C.(2008)。建立统计等价的推论置信区间方法,该方法校正了Tryon(2001)的折减因子。心理方法,第13卷,第272-278页。(免费PDF)
此外:
Seaman,MA和Serlin,RC(1998)。Ë quivalence置信区间的手段两组比较。心理方法,第3(4)卷,403-411。
最近,我考虑了一种基于两种分布之间的距离而不是其均值之间的“等效性测试”的替代方法。
有一些方法可以为两个高斯分布的重叠提供置信区间:
两个分布和之间的重叠具有很好的概率解释: 其中是和之间的总变化距离。P 1 P 2 1 - O (P 1,P 2)= T V (P 1,P 2)T V (P 1,P 2)= sup A | P 1(A )− P 2(A )| P 1 P 2
这意味着,例如,如果则任何事件的和给出的概率相差不超过。粗略地讲,这两个分布所做的预测高达。P 1 P 2 0.1 10 %
因此,代替使用基于针对所述装置之间的差的临界值的接受标准和,如在古典等价测试,我们可以将它基于对之间的差的临界值的预测的概率由下式给出两种分布。μ 2
我认为在标准的“客观性”方面有优势。的临界值 应该由真正问题的专家给出:这应该是一个值,超出该值才具有实际意义。但是有时没有人对实际问题有扎实的知识,也没有专家能够提供关键的价值。采用关于的常规临界值可能是一种不依赖于所考虑物理问题的准则的方法。Ť V (P 1,P 2)
在具有相同方差的高斯情况下,重叠与标准化均值。
在医学科学中,最好使用置信区间方法,而不是两个单面测试(tost)。我还建议将点估计值,配置项和事先确定的等价裕度绘制成图形,以使情况非常清楚。
您的问题可能会通过这种方法解决。
CONSORT非自卑/对等研究指南在这方面非常有用。
参见Piaggio G,Elbourne DR,Altman DG,Pocock SJ,Evans SJ和CONSORT Group。非劣效性和等效性随机试验的报告:CONSORT声明的扩展。贾玛 2006年3月8日; 295(10):1152-60。 (链接到全文。)
两个样本组之间的引导差异(例如均值之间的差异),并检查统计显着性。即使在不同的上下文中,也可以在以下网址找到有关此方法的更详细说明:http://www.automated-trading-system.com/a-different-application-of-the-bootstrap/