样本数量少会导致类型1错误吗?


21

我了解到,小样本量可能会导致功效不足和2型错误。但是,我觉得小样本通常可能不可靠,并可能偶然导致任何结果。真的吗?


我讨厌不必要的数学符号,所以我已经编辑了标题,请您检查一下我是否没有通过更改来更改含义?
mpiktas 2011年

1
还要确保谈论假设检验(Neyman-Pearson检验)而不是重要性检验(Fisher检验)。即使在第二种方法中没有错误的概念,这些方法也通常会混杂在一起,并且正确的用法应该有所不同,因为它们会导致不同类型的结论。
勒布

如果您正在使用渐近检验,那么可以。否则,否-测试被定义​​为控制类型1的错误率(即)。α
2012年

但这不是真的,如果您掷硬币两次,则比在掷硬币100次时,更容易产生歪斜的结果(2个相同面(100%)),这很可能导致大约1 / 2,1 / 2。这是否表明大小越小,您发生I型错误的可能性就越大?

Answers:


27

作为一般原则,由于测试安排为控制I 型错误率的简单原因,小样本量不会增加I型错误率。(存在与离散结果相关的次要技术例外,这可能导致无法准确实现I类标称速率,特别是在样本量较小的情况下。)

这里有一个重要的原则:如果您的测试具有可接受的大小(=名义上的I类速率)和可接受的功效,那么即使样本量很小,也可以。

危险是,如果我们否则对情况一无所知(也许这些都是我们拥有的数据),那么我们可能会担心“ III类”错误:即模型错误指定。用少量样本很难检查它们。

作为思想互动的一个实际例子,我将分享一个故事。很久以前,我被要求推荐一个样本量以确认环境清洁。这是在清理前的阶段,我们没有任何数据。我的计划要求分析清理过程中获得的大约1000个样本(以确保每个位置都清除了足够的土壤),以评估清理后的平均值和污染物浓度的变化。然后(为简化起见),我说过我们将使用教科书公式(基于指定的功效和测试大小)来确定用于证明清理成功的独立确认样本的数量。

令人难忘的是,清理完成后,该配方仅使用了3个样品。突然我的建议看起来不太可信!

只需要3个样本的原因是清理是积极的并且效果很好。它将平均污染物浓度降低至约100 ppm,这相当于或低于100 ppm的目标。

最后,这种方法之所以奏效,是因为我们已经获得了1000个以前的样本(尽管分析质量较低:它们具有较大的测量误差),从而确定对这个站点所做的统计假设实际上是正确的。 就是处理III型错误的可能性。

供您考虑的另一点是:知道监管机构永远不会批准仅使用3个样本,因此我建议获得5个测量值。这些将由整个站点的25个随机样本组成,每5个一组组合。从统计学上说,最终假设检验中只有5个数字,但是通过采取25个物理步骤,我们获得了更大的检测孤立“热点”的能力样品。这突出显示了测试中使用了多少个数字以及如何获得它们之间的重要关系 统计决策不只是数字算法!

令我永生难忘的是,五个综合值确认达到了清理目标。


1
(+1)关于主动清除III型错误的好故事,如果这也与经济时间序列相关,那将是不错的选择。对于确定性模型或低噪声比的模型,小样本量恕我直言将不是最大的问题(与大量非常嘈杂的独立大样本数据相比,即使主要成分很难处理)。
Dmitrij Celov 2011年

1
+1,对于那些有兴趣进一步理解第一段中提到的“与离散结果相关的技术异常”的人员,我在这里讨论了这些:比较和对比p值,显着性水平和I型错误
gung-恢复莫妮卡

1
+1,很好的例子说明了为什么在没有关键信息的情况下,您无法以有用的样本数量采取疯狂的尝试。
Freya Harrison

0

小样本的另一个结果是2型错误的增加。

在1960年的《心理学中的统计数据》一书中,娜娜证明了小样本通常无法拒绝点零假设。这些假设是某些参数等于零的假设,并且在考虑的经验中已知是错误的。

相反,太大的样本会增加类型1的误差,因为p值取决于样本的大小,但是有效的alpha值是固定的。对此类样本进行的测试将始终拒绝原假设。阅读Johnson和Douglas(1999)的“统计显着性检验的无意义”以对该问题进行概述。

这不是问题的直接答案,但这些考虑是相辅相成的。


+1代表发出大样本和I型错误的问题
Josh Hemann

6
-1,“样本太大会增加类型1错误”的注释不正确。您可能会混淆统计显着性和实际意义,因为可能存在这样一种情况,即真实影响并非完全为0,而是很小,以至于无关紧要,并且出于实际目的,我们会考虑使用null'true' 。在这种情况下,无效值被拒绝的时间将超过(例如)5%,并且经常会增加N。但是,严格来说,根据规定,真实效果为0的无效假设是错误的。因此,这些拒绝实际上不是I类错误。
gung-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.