如何检验无群体差异的假设?


39

假设您有一个由两组(例如,男性和女性)组成的研究,研究了一个数字因变量(例如,智力测验分数),并且您假设没有组差异。

题:

  • 有什么好的方法可以测试是否存在小组差异?
  • 您将如何确定充分测试无组差异所需的样本量?

初步想法:

  • 仅仅进行标准的t检验是不够的,因为不能拒绝原假设就并不意味着关注的参数等于或接近于零。对于小样本尤其如此。
  • 我可以查看95%的置信区间,并检查所有值是否都在足够小的范围内;也许正负0.3标准偏差。

“这假设原假设为真”是什么意思?
罗宾吉拉德

如果您希望能够控制错误地声明“存在差异”的可能性,则需要将两个假设分开(我已经提到过我喜欢这个报价:stats.stackexchange.com/questions/726/… ;))
罗宾吉拉德

@Robin无效假设显着性检验的p值是看到比假设无效假设为真时观察到的极限数据更多或更多的概率;但也许我可以更好地表达上面的说法。
Jeromy Anglim

@Robin我修改了问题以使观点更清楚
Jeromy Anglim

Answers:


20

我认为您正在询问是否要进行等效性测试。本质上,您需要确定可接受的差异有多大,以便仍然得出结论,两组实际上是等效的。该决定定义了95%(或其他)的置信区间限制,并在此基础上进行了样本量计算。

关于这一主题有一整本书

非劣效性测试/试验是临床上非常普遍的等效试验。在这种情况下,您“偏爱”一组而不是另一组(已确立的治疗方案),并设计测试以显示在某种程度的统计证据上,新治疗方案不逊于已确立的治疗方案。

我认为我需要将GraphPad.com网站(在“库”下)归功于Harvey Motulsky


16

除了已经提到的某种等效测试的可能性外,据我所知,大多数等效测试大多是按照良好的旧常识传统进行的,还有可能进行真正对证据进行量化的测试支持零假设,即贝叶斯检验

贝叶斯t检验的实现可以在这里找到:Wetzels,R.,Raaijmakers,JGW,Jakab,E.和Wagenmakers,E.-J。(2009)。如何量化对空假设的支持和反对:默认贝叶斯t检验的灵活WinBUGS实现。心理研究与评论,第16期,752-760。

还有一个有关如何在R中完成所有这些操作的教程:

http://www.ruudwetzels.com/index.php?src=SDtest


克鲁施克(Kruschke)在本文中提供了贝叶斯t检验的替代方法(也许是更现代的方法)(带代码):

Kruschke,JK(2013)。贝叶斯估计取代t检验实验心理学杂志:General,142(2),573–603。doi:10.1037 / a0029146


这个答案的所有道具(在添加Kruschke之前)应该交给我的同事David Kellen。我从这个问题中窃取了他的答案。


我想知道是否有人会提供贝叶斯方法。优秀的。谢谢。
Jeromy Anglim

1
这可能是值得更新这个答案,包括R.到真棒BayesFactor包的引用
crsh


8

我知道有几篇文章可能对您有帮助:

Tryon,WW(2001)。使用推论置信区间评估统计差异,等价性和不确定性:进行原假设统计检验的综合替代方法。心理方法,6,6,371-386。(免费PDF

并进行了更正:
Tryon,WW和Lewis,C.(2008)。建立统计等价的推论置信区间方法,该方法校正了Tryon(2001)的折减因子。心理方法,第13卷,第272-278页。(免费PDF

此外:

Seaman,MA和Serlin,RC(1998)。Ë quivalence置信区间的手段两组比较。心理方法,第3(4)卷,403-411。


关于该主题有大量论文,甚至书籍。
Michael Chernick

7

最近,我考虑了一种基于两种分布之间的距离而不是其均值之间的“等效性测试”的替代方法。

有一些方法可以为两个高斯分布的重叠提供置信区间:在此处输入图片说明

两个分布和之间的重叠具有很好的概率解释: 其中是和之间的总变化距离P 1 P 2 1 - O P 1P 2= T V P 1P 2T V P 1P 2= sup A | P 1A P 2A | P 1 P 2O(P1,P2)P1P2

1O(P1,P2)=TV(P1,P2)
TV(P1,P2)=supA|P1(A)P2(A)|P1P2

这意味着,例如,如果则任何事件给出的概率相差不超过。粗略地讲,这两个分布所做的预测高达。P 1 P 2 0.1 10 O(P1,P2)>0.9P1P20.110%

因此,代替使用基于针对所述装置之间的差的临界值的接受标准和,如在古典等价测试,我们可以将它基于对之间的差的临界值的预测的概率由下式给出两种分布。μ 2μ1μ2

我认为在标准的“客观性”方面有优势。的临界值 应该由真正问题的专家给出:这应该是一个值,超出该值才具有实际意义。但是有时没有人对实际问题有扎实的知识,也没有专家能够提供关键的价值。采用关于的常规临界值可能是一种不依赖于所考虑物理问题的准则的方法。Ť V P 1P 2|μ1μ2|TV(P1,P2)

在具有相同方差的高斯情况下,重叠与标准化均值。|μ1μ2|σ


你有没有被表示相交的任何资源使用中的一些实际问题?这听起来令人难以置信,但我尚不清楚如何将其应用于实际问题(您的结论可能从“此分布与X十分相似”中删除了几个步骤,因此很难看出这一点)。 10%的电视转化为对推理影响的大小)。
笨拙的乔·皮特2015年

1
:@StumpyJoePete我已经写在同一个精神的东西在我的博客stla.github.io/stlapblog/posts/...
斯特凡纳·洛朗

5

在医学科学中,最好使用置信区间方法,而不是两个单面测试(tost)。我还建议将点估计值,配置项和事先确定的等价裕度绘制成图形,以使情况非常清楚。

您的问题可能会通过这种方法解决。

CONSORT非自卑/对等研究指南在这方面非常有用。

参见Piaggio G,Elbourne DR,Altman DG,Pocock SJ,Evans SJ和CONSORT Group。非劣效性和等效性随机试验的报告:CONSORT声明的扩展。贾玛 2006年3月8日; 295(10):1152-60。 (链接到全文。)


1
我不一定会说置信区间是首选。实际上,置信区间对应于假设检验。通过查看与该过程中使用的两个单侧t检验相对应的两个单侧置信区间相交而获得的置信区间,可以实现TOST。
迈克尔·切尔尼克

4

是。这是等效测试。基本上,您可以颠倒原假设和替代假设,并根据功效确定样本量,以表明均值之间的差异在等效范围之内。Blackwelder称其为“证明原假设”。这通常在药物临床试验中完成,在该试验中,要测试仿制药与市售药物的等效性,或者将批准的药物与新制剂进行比较(通常称为生物等效性)。单方面的版本称为非自卑。有时候,仅通过证明新药不逊于市场竞争者就可以批准该药。Shao和Pigeot使用交叉设计开发了一致的自举方法来实现生物等效性。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.