Answers:
假设很重要,因为它们会影响假设检验(和区间)的属性,您可以使用其空值下的分布属性是根据这些假设来计算的。
尤其是,对于假设检验,我们可能关心的事情是,真正的显着性水平与我们想要的水平相距多远,以及针对感兴趣的替代方案的力量是否良好。
关于您询问的假设:
在设计的每个单元格中,因变量(残差)的方差应相等
至少在样本大小不相等时,这肯定会影响显着性水平。
(编辑:) ANOVA F统计量是两个方差估计值的比率(方差的划分和比较就是为什么将其称为方差分析的原因)。分母是估计的所有单元通用误差方差的估计值(根据残差计算),而分子基于组均值的变化将具有两个成分,一个来自总体均值的变化,另一个是由于误差差异。如果null为true,则正在估计的两个方差将是相同的(对共同误差方差的两个估计);否则为0。这个通用但未知的值抵消了(因为我们采用了比率),从而留下了仅取决于误差分布的F统计量(在假设下我们可以显示为F分布。(类似的评论适用于t-我用于说明的测试。)
[我在这里的答案中有一些关于这些信息的更多详细信息]
但是,此处两个总体差异在两个大小不同的样本之间有所不同。考虑分母(方差分析中的F统计量和t检验中的t统计量)-它由两个不同的方差估计组成,而不是一个,因此它不会具有“正确”的分布(按比例缩放-F的平方及其在at的情况下的平方根-形状和比例都是问题。
结果,F统计量或t统计量将不再具有F分布或t分布,但其影响方式会有所不同,具体取决于从具有较大的差异。反过来,这会影响p值的分布。
在零值下(即当总体均值相等时),p值的分布应均匀分布。但是,如果方差和样本量不相等,但均值相等(因此我们不想拒绝空值),则p值不会均匀分布。我做了一个小模拟,向您展示发生了什么。在这种情况下,我仅使用了两组,所以方差分析等效于方差相等的两个样本的t检验。因此,我从两个正态分布中模拟了一个样本,一个样本的标准偏差是另一个样本的十倍,但均值相等。
对于左侧图,较大的(总体)标准偏差为n = 5,较小的标准偏差为n = 30。对于右侧图,n = 30时标准偏差较大,n = 5时较小。我进行了10000次模拟,每次都找到了p值。在每种情况下,您都希望直方图完全平坦(矩形),因为这意味着在某个显着性水平上进行的所有测试实际上都会得到I型错误率。特别重要的是,直方图的最左侧部分应保持靠近灰线:
正如我们所看到的,左侧图(较小样本中的方差较大)的p值往往很小-即使null为真,我们也会经常拒绝null假设(在此示例中,时间接近一半) 。也就是说,我们的显着性水平比我们要求的要大得多。在右侧图中,我们看到p值大部分很大(因此我们的显着性水平比我们要求的要小得多)-实际上,在5%的水平(最小的水平)中,我们没有拒绝一次模拟此处的p值为0.055)。[这听起来或许不是一件坏事,直到我们记住,我们也将具有非常低的功率,以配合我们的非常低的显着性水平。]
那是相当大的后果。这就是为什么当我们没有充分的理由假设方差将接近相等时使用Welch-Satterthwaite类型t检验或ANOVA是一个好主意的原因-相比之下,在这些情况下几乎没有影响(I也模拟了这种情况;模拟的p值的两个分布-我在这里没有显示-十分接近平坦。
对于设计的每个单元,您的因变量(残差)应近似正态分布
这在某种程度上没有那么直接的关键-对于正常程度的适度偏差,在较大样本中,显着性水平受的影响不大(尽管功效可以!)。
这是一个示例,其中值呈指数分布(具有相同的分布和样本大小),我们可以看到在小n时此显着性水平问题相当严重而在大减小的。
我们看到在n = 5时,小的p值实际上太少了(5%检验的显着性水平大约是应该的一半),但是在n = 50时,问题减少了-5%在这种情况下,检验的真实显着性水平约为4.5%。
因此,我们可能会想说“好吧,如果n足够大以至于可以使显着性水平非常接近”,但是我们可能还会抛出很多方法。尤其是,众所周知,t检验相对于广泛使用的替代品的渐近相对效率可以达到0。这意味着更好的检验选择可以获得相同的功效,而所需的样本量却几乎消失了。 T检验。您不需要任何异常就可以继续需要比其他测试多两倍的数据才能拥有t的相同功效-总体分布中的尾巴比正常尾部要重而适度的大样本就足够了。
(其他分布选择可能会使显着性水平高于应有的水平,或显着低于我们在此处看到的水平。)
简而言之,ANOVA被加入,平方和平均 残差。残差告诉您模型对数据的拟合程度。在这个例子中,我使用的PlantGrowth
数据集R
:
比较在对照和两种不同处理条件下获得的产量(以植物干重衡量)的实验结果。
第一张图显示了所有三个治疗水平的均值:
红线是残差。现在,通过平方和增加这些单独的行的长度,您将获得一个值,该值告诉您平均值(我们的模型)描述数据的程度。较小的数字告诉您平均值可以很好地描述您的数据点,较大的数字告诉您平均值不会很好地描述您的数据。此数字称为平方总和:
跨越数据集的总平均值。
现在,您要对处理中的残差进行相同的处理(“平方残差”,也称为治疗级别的噪声):
和公式:
在治疗水平的平均。
最后,我们需要确定数据中的信号,即所谓的平方模型和,其后将用于计算处理方式是否不同于总体均值:
和公式:
现在,平方和的缺点是随着样本数量的增加,平方和变得更大。要表达相对于数据集中观察数的平方和,可将它们除以它们的自由度,将它们转化为方差。因此,在平方并添加了数据点之后,现在可以使用它们的自由度对它们进行平均:
这样就得出了模型均方和残差均方(均为方差),即信噪比,即F值:
F值描述了信噪比,或者描述了处理手段是否不同于总体均值。F值现在用于计算p值,这些值将决定至少一种处理方式是否与总体均值有显着差异。
现在,我希望您可以看到这些假设是基于带有残差的计算以及为什么它们如此重要。由于我们对残差进行添加,平方和平均,因此在执行此操作之前,应确保这些处理组中的数据表现相似,否则F值可能会有所偏差,并且从该F值得出的推论可能无效。
编辑:我添加了两个段落来更具体地解决OP的问题2和1。
正态性假设:平均值(或期望值)通常用于统计数据中以描述分布的中心,但是它不是很可靠,并且容易受到异常值的影响。平均值是我们可以拟合数据的最简单模型。由于在方差分析中我们使用均值来计算残差和平方和(请参见上面的公式),因此数据应大致呈正态分布(正态性假设)。如果不是这种情况,则平均值可能不是适合数据的模型,因为它无法为我们提供样本分布中心的正确位置。相反,一次可以使用中位数作为示例(请参阅非参数测试程序)。
方差假设的均质性:稍后,当我们计算均方(模型和残差)时,我们将根据治疗水平汇总各个平方和,并将它们取平均(请参见上面的公式)。通过合并和平均,我们将丢失各个治疗水平差异及其对均方的贡献的信息。因此,我们在所有治疗水平之间应具有大致相同的方差,以便对均方的贡献相似。如果这些治疗水平之间的方差不同,那么所得的均方值和F值将产生偏差,并会影响p值的计算,从而使从这些p值得出的推论值得怀疑(另请参见@whuber的评论和@Glen_b的答案)。
这就是我自己的看法。它可能不是100%准确(我不是统计学家),但是它可以帮助我理解满足ANOVA假设的重要性。
方差分析只是一种方法,它将根据您的样本计算出F检验,并将其与F分布进行比较。您需要一些假设来决定要比较的内容并计算p值。
如果您不满足该假设,则可以计算其他内容,但它不是方差分析。
最有用的分布是普通分布(由于CLT),这就是为什么它是最常用的分布。如果您的数据不是正态分布的,则至少需要知道其分布是什么才能计算出一些东西。
同质性也是回归分析中的一个常见假设,它使事情变得更容易。我们需要一些假设。
如果您没有同质性,则可以尝试转换数据来实现。
已知ANOVA F检验在固定误报率固定的情况下最大程度地减少误报率方面几乎是最佳的