如果样本量很小,我可以相信t检验的重要结果吗?


17

如果我的单面t检验结果显着,但是样本量很小(例如,低于20个左右),我仍然可以相信这个结果吗?如果没有,我应该如何处理和/或解释此结果?



8
只是一个评论,我不想添加到下面的精彩评论中;您不信任t检验的结果,而是信任过程本身。单个结果是正确的还是不正确的,但是没有进一步的调查,您将永远不会知道哪个。如果满足假设,则采用费舍尔方法或Pearson和Neyman方法的t检验是可信的。如果将设置为α<.05无限重复,它将欺骗您不超过5%的时间,可能更少。您应该问的问题是“是否满足假设?”
戴夫·哈里斯

Answers:


15

从理论上讲,如果所有t检验的假设都成立,那么样本量很小就没有问题。

在实践中,对于大样本量,我们可以避免一些不完全正确的假设,但对于小样本量,它们可能会引起问题。您知道基础分布是否为正态分布吗?所有样本是否独立且分布均匀?

如果您怀疑测试的有效性,那么可以使用引导程序。自举涉及从样本中重新采样,以查看原假设是真是假的频率。也许您的零假设是,p值是0.05,但是自举分析显示样本均值在10%的时间内小于零。这将表明这是一个fl幸事件,导致p值为0.05,您应该不太相信原假设为假。μ<0


1
例如,如果您知道基本分布大致是正态分布,并且所有10个样本均小于特定值,那么很明显,总体均值大于该值的几率最高为2 ^ 10,或千分之一。显然,正态分布总体中的所有十个样本都在均值的同一侧,这是2十分之一的机会。问题是您将获得值得信赖的结果,但结果却非常薄弱-例如“成年男性的平均身高几乎肯定在5到7英尺之间”。
David Schwartz

非常感谢您的解释和替代方法。我真的很感激他们!非常感谢!
艾瑞克(Eric)

我没有您的引导建议。如果您从样本中进行重新采样(p <0.05),那么您会期望大多数的引导程序重新采样会产生明显的结果,可能约为95%,而不是5或10%。您能详细说明一下吗?抄送@Eric。
变形虫说莫妮卡(Monica)恢复职权

3
概括地说,引导程序在大样本中效果很好,但是在小样本中,覆盖范围可能与标称值有很大差异。同样,由于样本量非常小,功效也很低。因此,“引导测试”不一定总是优于t测试。
变形虫说恢复莫妮卡的时间

3
@amoeba我真的很喜欢你的矫正风格。您不仅告诉我对/错是什么,还指出了我的想法的奇怪结果,使我重新思考我的答案并理解我的错误根源。非常感谢你的帮忙!过去,Whuber也对我这样做
Hugh

21

您应该很少信任任何重要的结果。您没有说为什么要使用单尾而不是两尾测试,因此希望您有充分的理由这样做,而不是要设法声明统计学上显着的结果!

撇开这一点,请考虑p中的以下内容。261 Sauro,J.和Lewis,JR(2016)。量化用户体验:用户研究的实用统计数据,第二版,马萨诸塞州剑桥:Morgan-Kaufmann。


罗纳德·费舍尔(Ronald Fisher)如何建议使用p值

卡尔·皮尔森(Karl Pearson)是统计学的大人物,而罗纳德·费舍尔(Ronald Fisher)是相对较新的人物时,皮尔森显然受到费舍尔的思想和数学能力的威胁,因此利用他的影响力阻止了费舍尔在当时的主要统计期刊《 Biometrika》和《华尔街日报》上发表论文。皇家统计协会。因此,费舍尔在许多其他场合发表了他的想法,例如农业和气象期刊,其中包括针对《心理学研究学会》的几篇论文。在后一期杂志的一篇论文中,他提到了将我们现在所谓的可接受的I类错误(alpha)设置为0.05的惯例,并且至关重要的是,还提到了遇到意外的重大结果时可再现性的重要性:

如果没有我们正在寻找的真正原因,则观察结果被认为是有意义的,即使很少产生。通常的做法是判断结果是否有意义,如果结果的大小如此之大,以至于偶然产生的概率不会超过二十次试验中的一次。对于实际的研究人员来说,这是一个任意的但方便的意义,但这并不意味着他每二十个实验就会欺骗自己一次。显着性检验仅告诉他要忽略的内容,即所有未获得显着结果的实验​​。他只应该声称一种现象在实验上可以证明是实验性的,因为他知道如何设计实验,从而很少能给出有意义的结果。所以,他不知道如何复制的孤立的重要结果悬而未决,有待进一步调查。(Fisher,1929年,第191页)

参考

费舍尔,RA(1929)。心理研究中的统计方法。心理研究学会学报,39,189-192。


2
费舍尔还发表了几篇重要的论文,在《优生学年鉴》中重新定义了最大似然估计。他的方法通常比卡尔·皮尔森使用的时刻方法更好。费舍尔称他的方法为基准推论。后来由Jerzy Neyman和Egon Pearson(Karl Pearson的儿子)将其正式化。
Michael R. Chernick

3
Neyman和Pearson并未将Fisher的基准推理形式化。他们开发了另一种方法。
Michael Lew-恢复莫妮卡

5
在费舍尔时代,“重要”表示它表示某些东西,而不是重要的。
David Lane

1
非常感谢您提供非常详细的信息!确实对我有很大帮助!
艾瑞克(Eric)

16

想象一下自己处于一种情况,即您正在执行许多类似的测试,并且在某些情况下某些空值是正确的。

确实,让我们使用超简单的urn型模型对其进行建模。在骨灰盒中,有编号的球,每个球对应于您可能选择进行的实验,其中一些球的值为true,而有些球的值为false。调用骨灰盒中真实空值的比例t

为了进一步简化该想法,让我们假设这些虚假null的幂是恒定的(at ,因为(1β)是II型错误率的常用符号)。β

nMnM

您拒绝的比例中有多少是“正确的”?

ntα+n(1t)(1β)
n(1t)(1β)

(1t)(1β)tα+(1t)(1β)

tαtα+(1t)(1β)

(1t)(1β)tα

1βα

因此,当您的样本量较小(因此功效较低)时,如果零值的合理部分为真,那么当我们拒绝时,我们经常会出错。

如果我们几乎所有的null都是严格错误的,情况就不会好得多-虽然我们的大多数拒绝都是正确的(通常,因为微小的影响仍然严格是错误的),但是如果功效不高,那么其中的很大一部分拒绝将是“错误的方向”-我们将得出结论,null经常是错误的,因为偶然地样本被证明是错误的(这可能是使用单面测试的一个论点-当单面测试进行时感觉-至少避免在难以获得大样本量的情况下没有意义的拒绝)。

我们可以看到小样本量肯定是一个问题。

[此不正确拒绝的比例称为错误发现率 ]


如果您知道可能的效应量,则可以更好地判断合适的样本量。由于预期效果很大,因此样本量较小的剔除不一定是主要问题。


非常感谢!我很容易错过这一点。非常感谢您指出这一点!
艾瑞克(Eric)

1
做得好。这可能是公认的答案。
理查德·哈迪

@Eric原来的答案在中间有些混乱;我已经改正了。
Glen_b-恢复莫妮卡的时间

9

他开发了t检验的Gosset的一些原始作品(又名Student)涉及n = 4和5的酵母样品。该检验是专门为非常小的样品设计的。否则,正常近似就可以了。也就是说,Gosset对他非常了解的数据进行了非常仔细的受控实验。啤酒厂必须测试的东西数量是有限制的,戈塞特在吉尼斯度过了他的工作生涯。他知道他的数据。

我有点怀疑您对单面测试的重视。无论假设如何,测试的逻辑都是相同的,但是我已经看到人们在两面无关紧要的情况下进行了重要的单面测试。

这是(上部)单面测试的含义。您正在测试平均值为0。您可以进行数学运算,并准备在T> 2.5时拒绝。您进行实验并观察到T = -50,000。您说,“ phhhhht”,然后生活继续。除非测试统计在物理上不可能跌至假设的参数值以下,并且除非您永远不会决定测试统计的方向是否与预期相反,否则您应该使用双面测试。


6

您需要担心的主要事情是测试的力量。尤其是,您可能需要进行事后功效分析,以确定给定样本量的可能性,以确定合理大小的真实显着影响。如果典型效应非常大,则n为8可能就足够了(就像分子生物学中的许多实验一样)。如果你感兴趣的效果通常是微妙的,但是(在许多社会心理学实验),一ñ十万仍可能动力不足。

这很重要,因为功率不足的测试可能会产生非常误导的结果。例如,如果您的测试功率不足,即使您发现了显着的结果,也很有可能会产生安德鲁·盖尔曼(Andrew Gelman)所说的“ S型”错误,即产生了实际效果,但方向相反,或者“ M型”错误,即,有实际影响,但实际大小要比从数据中估计的要弱得多。

盖尔曼(Gelman)和卡林(Carlin)撰写了一篇有关进行事后功率分析的有用论文,我认为适用于您的情况。重要的是,他们建议使用独立数据(即不是您测试的数据,而是评论,建模,相似实验的结果等)来估计可能的真实效果大小。通过使用可能的估计真实效果大小进行功效分析并与您的结果进行比较,您可以确定发生S型错误和典型“夸大率”的可能性,从而更好地理解证据的真实强度。


4

可以说统计意义的全部要点是回答以下问题:“给定样本量,我是否可以相信这一结果?”。换句话说,关键是要控制这样一个事实,即在不存在实际影响的情况下,使用较小的样本量就可以得到骗子。统计意义即p值恰好是以下问题的答案:“如果不存在实际影响,那么我将有多大的幸灾乐祸?”。如果可能性很小,则表明这不是not幸。

因此,答案是“是”,如果p值低,并且您遵循正确的统计程序并满足相关假设,则是,这是一个很好的证据,并且具有与您相同的权重在样本量很大的情况下获得了相同的p值。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.