2.04标准错误的含义?当置信区间广泛重叠时,均值的显着不同吗?


10

下面的图片是从这篇文章心理科学。一位同事指出了两个不寻常的事情:

  1. 根据标题,误差线显示为“±2.04标准误差,置信区间为95%”。我只见过±1.96 SE用于95%CI,而我找不到关于2.04 SE用于任何目的的任何信息。2.04 SE是否具有一些公认的含义
  2. 案文指出,按计划进行的成对比较发现,平均惊吓幅度在误差与正确的可预测试验(t(30)= 2.51,p <.01)和误差与正确的不可预测试验(t(30)= 2.61,p <.01)(综合F检验在p <.05时也很显着)。但是,该图显示了所有三个条件的误差线基本重叠。如果±2.04 SE间隔重叠,那么在p <.05时,这些值有何显着不同?重叠部分足够大,我假设±1.96 SE间隔也重叠。

显示2.04 SE误差线的条形图


1
好答案。我要强调的是(正如胡布尔已经指出的那样),比较95%的置信区间与在显着性水平0.05上进行统计检验并不相同。当然,有一些有关此的论文。如果置信区间是唯一可用的统计数据,Payton等人建议对高斯数据的显着性水平0.05使用85%的区间。他们在这里跟进工作。
Martin Berglund

1
谢谢,@马丁。结束循环:尽管我没有看过Payton 等人的论文,但85%的依据很明确:z值对应于84%(平方时)等于;将其中两个相加得到 ; 它的平方根是,几乎等于95%间隔的z值。我认为佩顿将84%舍入为85%。换句话说,可以通过我提供的相同分析来解释他们的建议(无论如何得出)。242
ub

@MartinBerglund和whuber想知道我的独立计算(用于在0.05级进行统计测试的83.4%置信区间)是否是原始的-显然不是!感谢您的论文参考,非常有帮助。
tristan

Answers:


11
  1. 2.04是与31自由度的Student t分布一起使用的乘数。引号表明自由度是适当的,在这种情况下,正确的乘数是。302.0422722.04

  2. 根据标准误比较均值。标准误差通常是标准偏差的倍,其中(此处大概为)是样本大小。如果标题正确地称为“标准误差”,则标准偏差必须至少比所示的的值大倍。一个正值的数据集,标准偏差为并且平均值在和之间,则大多数值必须接近1/nn30+1=31315.56316×5.5=3314180以及极少数的巨大价值,这似乎不太可能。(如果是这样,则基于Student t统计量的整个分析将始终无效。) 我们应该得出结论,该数字很可能显示了标准偏差,而不是标准误差

  3. 均值的比较不是基于置信区间的重叠(或缺少)。两个95%的配置项可以重叠,但仍可以表明高度不同。原因是(独立)均值之的标准误差至少近似等于均值标准误差平方和的平方根。例如,如果的平均值的标准误差等于和一个平均的标准误差等于,那么该CI的第一平均值(使用的倍数)将从延伸至和的CI第二个将从1411712.0411.9216.0814.92到,并且有很大的重叠。但是,差异的SE 等于。平均值之差大于此值的倍:这是显着的。19.0312+121.411714=32.04

  4. 这些是成对比较。 各个值可能表现出很大的可变性,而它们之间的差异可能是高度一致的。例如,一组像,,,等的对在每个组件中都有变化,但差异始终为。尽管与任何一个组件相比,该差异都很小,但其一致性表明它具有统计学意义。(14,14.01)(15,15.01)(16,16.01)(17,17.01) 0.01


非常感谢。文章没有在任何地方声明事后测试是在两种类型的试验中每个参与者的回答之间成对比较的,所以我跳到一个结论,他们将其视为受试者之间的比较(即使那是不太合适,功能也不太强大)。我认为您一定是对的,他们正在进行更敏感(且更难以绘制图形)的测试。关于第3点,我唯一的回答是,我显然需要重新学习一些统计信息……
10

我正在回答您的问题中的一个短语,“计划的成对比较”。不过,您引用的其余结果表明它们不是成对比较,而是更有可能来自与我的答案中第3点类似的计算。
ub

我的意思是,他们正在做事后测试,将三个条件中的两个直接相互比较,而不是进行综合测试来比较所有三个条件。对不起,我很困惑。但是现在我来看,我仍然认为您是正确的。他们报告综合测试统计数据(F(2,60)=5.64, p<.05)的方式意味着这是重复测量测试,因此事后测试也可能是这样。
2012年

感谢您的出色回答。“原因是(独立)均值之差的标准误差至少近似等于均值标准误差平方和的平方根。” 我正在寻找参考资料,对此进行了讨论,但找不到任何参考资料。我希望在这方面提供一些指导。也许有人可以帮助我?
约翰内斯

@Johannes SE的平方与样本均值的方差成比例。(比例常数取决于一个人的定义,并且可能随样本大小而略有变化。)独立性意味着均值差的样本分布的方差是SE的平方和。
ub

3

混乱的部分原因在于数据的混淆表示。它似乎是重复测量设计,但误差线是估计真实平均值的可信度区间。重复测量的主要目的是避免收集足够的数据来获得原始平均值的质量估计。因此,诸如此类的错误条实际上与所讲述的故事几乎没有关系。至关重要的价值就是效果。为了使图表更突出故事的重点,用图表绘制效果及其置信区间会更加合适。


谢谢!我在努力地表达为什么图表看起来好像不代表分析。
2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.