简介:注意到今天这个问题引起了人们的注意: “ 当成对t检验都不存在时,方差分析会很重要吗? ”,我认为我可能能够以一种有趣的方式对其进行重新构架,以得到自己的答案。 。
当将统计显着性理解为简单的二分法,并仅根据或\ alpha的较高值来判断时,可能会出现各种不一致的结果(以面值计)。@Glen_b 对上述问题的回答提供了以下情况的有用示例:
- ANOVA 检验为具有四个水平的一个自变量(IV)产生,但是
- 对于所有两个样本检验,p_t> .08,用于比较与IV的每对四个水平对应的观测值之间相同因变量(DV)的差异。
尽管通过这个问题进行了事后成对比较的Bonferroni校正,但发生了类似的情况:Anova重复测量很重要,但是使用Bonferroni校正的所有多重比较都不是吗?前面提到的情况在多元回归中的检验也略有不同:
我打赌,在这样的情况下,一些(但不是全部)成对比较(或回归系数显着性检验)值必须相当接近如果相应综合测试可以实现。我看到@Glen_b的第一个示例就是这种情况,其中,,最大的成对差给出最小的。一般情况下必须这样吗?更具体地说:α p < α p ˚F = 0.046 p 吨 = 0.054
问题:如果ANOVA检验对连续DV的一个多静脉IV的影响产生,那么在比较每对IV水平的所有两个样本检验中,最低的值有多高?最小成对意义是否可以高达?p F = .05 p t p t = .50
我欢迎仅解决此特定问题的答案。但是,为了进一步激发这个问题,我将详细阐述并提出一些潜在的反问。欢迎您也解决这些问题,甚至在您愿意时也可以忽略特定的问题,尤其是在特定问题得到明确答案的情况下。
重要性:考虑一下,如果用连续的无效假设证据的强度来判断统计显着性,那么和之间的差异的重要性降低了多少(我认为是罗恩·费舍尔的方法?),而不是用高于或低于阈值的二分法来表示在选择是否拒绝零批发时可接受的错误概率。“ hacking ”是一个已知的问题,部分原因是由于对的解释而引入了不必要的漏洞,因此臭名昭著p t = .06p p p p 0.10 p α根据将重要性二分为“足够好”和“不够好”的等价物的常用值。如果要抛弃这种做法,而专注于将值解释为在连续时间间隔上抵制null的证据强度,那么当人们真正在乎多个成对比较时,综合测试可能会变得不太重要?不是无用的必然,在统计的准确性任何合理有效的改善当然是可取的,但是......如果,例如,最低两两比较的值是一定范围内的方差分析(或其他综合测试)价值,这是否会使综合测试变得更琐碎,更少强制性,甚至更具误导性(结合先前存在的误解),尤其是如果人们不希望跨多个测试控制?
相反,如果可能存在这样的数据,使得综合,但所有配对,这是否应该在整个实践和教学法中进一步激发综合和对比测试?在我看来,这个问题还应该提供依据二分法与连续统来判断统计显着性的相对优点,因为当差异“微不足道”时,二分式解释系统应该对小调整更敏感,而这两个系统都没有如果理论上这种差异/调整可能非常大(例如,,则执行综合测试或针对多个比较进行调整。p > .50 p t - p F > .40 )
需要考虑或忽略的其他可选复杂性—使回答更容易和更有价值的方法:
- 多高 S代表小号可能是,如果,对于,,而不是(例如,)t F p < .05 p = .01 ,.001 ,…
- 对多发性静脉内的水平数量的敏感性
- 对成对差异的重要性对不均匀性的敏感性(而所有)
- Whuber的答案表明,包含小的差异可以掩盖较大的差异。
- 各种综合测试的校正之间的差异以进行多次比较
- 另请参阅:校正主题内的多次比较/重复测量方差分析;过于保守?
- 对于多个IV,似乎多重共线性会加剧这个问题。
- 数据符合经典参数测试所有假设的受限情况
- 此限制对于防止此问题引起某些争论可能很重要。