Answers:
从理论上讲,如果所有t检验的假设都成立,那么样本量很小就没有问题。
在实践中,对于大样本量,我们可以避免一些不完全正确的假设,但对于小样本量,它们可能会引起问题。您知道基础分布是否为正态分布吗?所有样本是否独立且分布均匀?
如果您怀疑测试的有效性,那么可以使用引导程序。自举涉及从样本中重新采样,以查看原假设是真是假的频率。也许您的零假设是,p值是0.05,但是自举分析显示样本均值在10%的时间内小于零。这将表明这是一个fl幸事件,导致p值为0.05,您应该不太相信原假设为假。
您应该很少信任任何重要的结果。您没有说为什么要使用单尾而不是两尾测试,因此希望您有充分的理由这样做,而不是要设法声明统计学上显着的结果!
撇开这一点,请考虑p中的以下内容。261 Sauro,J.和Lewis,JR(2016)。量化用户体验:用户研究的实用统计数据,第二版,马萨诸塞州剑桥:Morgan-Kaufmann。
罗纳德·费舍尔(Ronald Fisher)如何建议使用p值
卡尔·皮尔森(Karl Pearson)是统计学的大人物,而罗纳德·费舍尔(Ronald Fisher)是相对较新的人物时,皮尔森显然受到费舍尔的思想和数学能力的威胁,因此利用他的影响力阻止了费舍尔在当时的主要统计期刊《 Biometrika》和《华尔街日报》上发表论文。皇家统计协会。因此,费舍尔在许多其他场合发表了他的想法,例如农业和气象期刊,其中包括针对《心理学研究学会》的几篇论文。在后一期杂志的一篇论文中,他提到了将我们现在所谓的可接受的I类错误(alpha)设置为0.05的惯例,并且至关重要的是,还提到了遇到意外的重大结果时可再现性的重要性:
如果没有我们正在寻找的真正原因,则观察结果被认为是有意义的,即使很少产生。通常的做法是判断结果是否有意义,如果结果的大小如此之大,以至于偶然产生的概率不会超过二十次试验中的一次。对于实际的研究人员来说,这是一个任意的但方便的意义,但这并不意味着他每二十个实验就会欺骗自己一次。显着性检验仅告诉他要忽略的内容,即所有未获得显着结果的实验。他只应该声称一种现象在实验上可以证明是实验性的,因为他知道如何设计实验,从而很少能给出有意义的结果。所以,他不知道如何复制的孤立的重要结果悬而未决,有待进一步调查。(Fisher,1929年,第191页)
参考
费舍尔,RA(1929)。心理研究中的统计方法。心理研究学会学报,39,189-192。
想象一下自己处于一种情况,即您正在执行许多类似的测试,并且在某些情况下某些空值是正确的。
确实,让我们使用超简单的urn型模型对其进行建模。在骨灰盒中,有编号的球,每个球对应于您可能选择进行的实验,其中一些球的值为true,而有些球的值为false。调用骨灰盒中真实空值的比例。
为了进一步简化该想法,让我们假设这些虚假null的幂是恒定的(at ,因为是II型错误率的常用符号)。
您拒绝的比例中有多少是“正确的”?
因此,当您的样本量较小(因此功效较低)时,如果零值的合理部分为真,那么当我们拒绝时,我们经常会出错。
如果我们几乎所有的null都是严格错误的,情况就不会好得多-虽然我们的大多数拒绝都是正确的(通常,因为微小的影响仍然严格是错误的),但是如果功效不高,那么其中的很大一部分拒绝将是“错误的方向”-我们将得出结论,null经常是错误的,因为偶然地样本被证明是错误的(这可能是使用单面测试的一个论点-当单面测试进行时感觉-至少避免在难以获得大样本量的情况下没有意义的拒绝)。
我们可以看到小样本量肯定是一个问题。
[此不正确拒绝的比例称为错误发现率 ]
如果您知道可能的效应量,则可以更好地判断合适的样本量。由于预期效果很大,因此样本量较小的剔除不一定是主要问题。
他开发了t检验的Gosset的一些原始作品(又名Student)涉及n = 4和5的酵母样品。该检验是专门为非常小的样品设计的。否则,正常近似就可以了。也就是说,Gosset对他非常了解的数据进行了非常仔细的受控实验。啤酒厂必须测试的东西数量是有限制的,戈塞特在吉尼斯度过了他的工作生涯。他知道他的数据。
我有点怀疑您对单面测试的重视。无论假设如何,测试的逻辑都是相同的,但是我已经看到人们在两面无关紧要的情况下进行了重要的单面测试。
这是(上部)单面测试的含义。您正在测试平均值为0。您可以进行数学运算,并准备在T> 2.5时拒绝。您进行实验并观察到T = -50,000。您说,“ phhhhht”,然后生活继续。除非测试统计在物理上不可能跌至假设的参数值以下,并且除非您永远不会决定测试统计的方向是否与预期相反,否则您应该使用双面测试。
您需要担心的主要事情是测试的力量。尤其是,您可能需要进行事后功效分析,以确定给定样本量的可能性,以确定合理大小的真实显着影响。如果典型效应非常大,则n为8可能就足够了(就像分子生物学中的许多实验一样)。如果你感兴趣的效果通常是微妙的,但是(在许多社会心理学实验),一ñ十万仍可能动力不足。
这很重要,因为功率不足的测试可能会产生非常误导的结果。例如,如果您的测试功率不足,即使您发现了显着的结果,也很有可能会产生安德鲁·盖尔曼(Andrew Gelman)所说的“ S型”错误,即产生了实际效果,但方向相反,或者“ M型”错误,即,有实际影响,但实际大小要比从数据中估计的要弱得多。
盖尔曼(Gelman)和卡林(Carlin)撰写了一篇有关进行事后功率分析的有用论文,我认为适用于您的情况。重要的是,他们建议使用独立数据(即不是您测试的数据,而是评论,建模,相似实验的结果等)来估计可能的真实效果大小。通过使用可能的估计真实效果大小进行功效分析并与您的结果进行比较,您可以确定发生S型错误和典型“夸大率”的可能性,从而更好地理解证据的真实强度。