ANOVA假设（方差相等，残差的正态性）为何重要？

15

在运行方差分析时，我们被告知必须进行某些测试假设才能使其适用于数据。对于测试起作用的必要条件，我从未理解以下原因：

在设计的每个单元格中，因变量（残差）的方差应相等
对于设计的每个单元，您的因变量（残差）应近似正态分布

我了解关于是否需要满足这些假设存在一些灰色区域，但是出于争论的目的，如果在给定的数据集中完全不满足这些假设，那么使用ANOVA将会带来什么问题？

hypothesis-testing anova assumptions

— 纸岩石火箭筒
source

您的学习目标是什么？

— Subhash C. Davar

8

假设很重要，因为它们会影响假设检验（和区间）的属性，您可以使用其空值下的分布属性是根据这些假设来计算的。

尤其是，对于假设检验，我们可能关心的事情是，真正的显着性水平与我们想要的水平相距多远，以及针对感兴趣的替代方案的力量是否良好。

关于您询问的假设：

1.方差相等

在设计的每个单元格中，因变量（残差）的方差应相等

至少在样本大小不相等时，这肯定会影响显着性水平。

（编辑：） ANOVA F统计量是两个方差估计值的比率（方差的划分和比较就是为什么将其称为方差分析的原因）。分母是估计的所有单元通用误差方差的估计值（根据残差计算），而分子基于组均值的变化将具有两个成分，一个来自总体均值的变化，另一个是由于误差差异。如果null为true，则正在估计的两个方差将是相同的（对共同误差方差的两个估计）；否则为0。这个通用但未知的值抵消了（因为我们采用了比率），从而留下了仅取决于误差分布的F统计量（在假设下我们可以显示为F分布。（类似的评论适用于t-我用于说明的测试。）

[我在这里的答案中有一些关于这些信息的更多详细信息]

但是，此处两个总体差异在两个大小不同的样本之间有所不同。考虑分母（方差分析中的F统计量和t检验中的t统计量）-它由两个不同的方差估计组成，而不是一个，因此它不会具有“正确”的分布（按比例缩放-F的平方及其在at的情况下的平方根-形状和比例都是问题。

结果，F统计量或t统计量将不再具有F分布或t分布，但其影响方式会有所不同，具体取决于从具有较大的差异。反过来，这会影响p值的分布。

在零值下（即当总体均值相等时），p值的分布应均匀分布。但是，如果方差和样本量不相等，但均值相等（因此我们不想拒绝空值），则p值不会均匀分布。我做了一个小模拟，向您展示发生了什么。在这种情况下，我仅使用了两组，所以方差分析等效于方差相等的两个样本的t检验。因此，我从两个正态分布中模拟了一个样本，一个样本的标准偏差是另一个样本的十倍，但均值相等。

对于左侧图，较大的（总体）标准偏差为n = 5，较小的标准偏差为n = 30。对于右侧图，n = 30时标准偏差较大，n = 5时较小。我进行了10000次模拟，每次都找到了p值。在每种情况下，您都希望直方图完全平坦（矩形），因为这意味着在某个显着性水平上进行的所有测试实际上都会得到I型错误率。特别重要的是，直方图的最左侧部分应保持靠近灰线： $\alpha$

正如我们所看到的，左侧图（较小样本中的方差较大）的p值往往很小-即使null为真，我们也会经常拒绝null假设（在此示例中，时间接近一半）。也就是说，我们的显着性水平比我们要求的要大得多。在右侧图中，我们看到p值大部分很大（因此我们的显着性水平比我们要求的要小得多）-实际上，在5％的水平（最小的水平）中，我们没有拒绝一次模拟此处的p值为0.055）。[这听起来或许不是一件坏事，直到我们记住，我们也将具有非常低的功率，以配合我们的非常低的显着性水平。]

那是相当大的后果。这就是为什么当我们没有充分的理由假设方差将接近相等时使用Welch-Satterthwaite类型t检验或ANOVA是一个好主意的原因-相比之下，在这些情况下几乎没有影响（I也模拟了这种情况；模拟的p值的两个分布-我在这里没有显示-十分接近平坦。

2.响应的条件分布（DV）

对于设计的每个单元，您的因变量（残差）应近似正态分布

这在某种程度上没有那么直接的关键-对于正常程度的适度偏差，在较大样本中，显着性水平受的影响不大（尽管功效可以！）。

这是一个示例，其中值呈指数分布（具有相同的分布和样本大小），我们可以看到在小此显着性水平问题相当严重 $n$ 而在大减小的。 $n$

我们看到在n = 5时，小的p值实际上太少了（5％检验的显着性水平大约是应该的一半），但是在n = 50时，问题减少了-5％在这种情况下，检验的真实显着性水平约为4.5％。

因此，我们可能会想说“好吧，如果n足够大以至于可以使显着性水平非常接近”，但是我们可能还会抛出很多方法。尤其是，众所周知，t检验相对于广泛使用的替代品的渐近相对效率可以达到0。这意味着更好的检验选择可以获得相同的功效，而所需的样本量却几乎消失了。 T检验。您不需要任何异常就可以继续需要比其他测试多两倍的数据才能拥有t的相同功效-总体分布中的尾巴比正常尾部要重而适度的大样本就足够了。

（其他分布选择可能会使显着性水平高于应有的水平，或显着低于我们在此处看到的水平。）

— Glen_b-恢复莫妮卡
source

感谢Glen的详细答复。我很好奇为什么如果不满足假设就会发生您所描述的错误就方差相等而言，我从您的笔录中得出以下结论是正确的吗？较大的方差是（以及数据点的数量通常较小，即n = 5），较小的样本中观察到的较大方差正在计算，以代表总体水平的方差。

— PaperRockBazooka

（第2部分）从本质上来说，代表性样本与代表性不足样本之间的不公平比较（相对而言）可能会由于ANOVA的处理方式而导致类型1错误。

— PaperRockBazooka

@Paper我认为这不是这里的问题。它不是较小样本中样本方差的代表性（例如，如果两个样本都同样小，那么代表性将有两倍的问题，但是将不存在此问题）。我在回答中添加了几段内容，以更详细地说明问题的产生。

— Glen_b-恢复莫妮卡的时间

4

简而言之，ANOVA被加入，平方和平均残差。残差告诉您模型对数据的拟合程度。在这个例子中，我使用的PlantGrowth数据集R：

比较在对照和两种不同处理条件下获得的产量（以植物干重衡量）的实验结果。

第一张图显示了所有三个治疗水平的均值：

红线是残差。现在，通过平方和增加这些单独的行的长度，您将获得一个值，该值告诉您平均值（我们的模型）描述数据的程度。较小的数字告诉您平均值可以很好地描述您的数据点，较大的数字告诉您平均值不会很好地描述您的数据。此数字称为平方总和：

$SS_{total}=\sum(x_i-\bar{x}_{grand})^2$ $x_{i}$ $\bar{x}_{grand}$ 跨越数据集的总平均值。

现在，您要对处理中的残差进行相同的处理（“平方残差”，也称为治疗级别的噪声）：

和公式：

$SS_{residuals}=\sum(x_{ik}-\bar{x}_{k})^2$ $x_{ik}$ $i$ $k$ $\bar{x}_{k}$ 在治疗水平的平均。

最后，我们需要确定数据中的信号，即所谓的平方模型和，其后将用于计算处理方式是否不同于总体均值：

和公式：

$SS_{model}=\sum n_{k}(\bar{x}_k-\bar{x}_{grand})^2$ $n_{k}$ $n$ $k$ $\bar{x}_k$ $\bar{x}_{grand}$

现在，平方和的缺点是随着样本数量的增加，平方和变得更大。要表达相对于数据集中观察数的平方和，可将它们除以它们的自由度，将它们转化为方差。因此，在平方并添加了数据点之后，现在可以使用它们的自由度对它们进行平均：

$df_{total}=(n-1)$

$df_{residual}=(n-k)$

$df_{model}=(k-1)$

$n$ $k$

这样就得出了模型均方和残差均方（均为方差），即信噪比，即F值：

$MS_{model}=\frac{SS_{model}}{df_{model}}$

$MS_{residual}=\frac{SS_{residual}}{df_{residual}}$

$F=\frac{MS_{model}}{MS_{residual}}$

F值描述了信噪比，或者描述了处理手段是否不同于总体均值。F值现在用于计算p值，这些值将决定至少一种处理方式是否与总体均值有显着差异。

现在，我希望您可以看到这些假设是基于带有残差的计算以及为什么它们如此重要。由于我们对残差进行添加，平方和平均，因此在执行此操作之前，应确保这些处理组中的数据表现相似，否则F值可能会有所偏差，并且从该F值得出的推论可能无效。

编辑：我添加了两个段落来更具体地解决OP的问题2和1。

正态性假设：平均值（或期望值）通常用于统计数据中以描述分布的中心，但是它不是很可靠，并且容易受到异常值的影响。平均值是我们可以拟合数据的最简单模型。由于在方差分析中我们使用均值来计算残差和平方和（请参见上面的公式），因此数据应大致呈正态分布（正态性假设）。如果不是这种情况，则平均值可能不是适合数据的模型，因为它无法为我们提供样本分布中心的正确位置。相反，一次可以使用中位数作为示例（请参阅非参数测试程序）。

方差假设的均质性：稍后，当我们计算均方（模型和残差）时，我们将根据治疗水平汇总各个平方和，并将它们取平均（请参见上面的公式）。通过合并和平均，我们将丢失各个治疗水平差异及其对均方的贡献的信息。因此，我们在所有治疗水平之间应具有大致相同的方差，以便对均方的贡献相似。如果这些治疗水平之间的方差不同，那么所得的均方值和F值将产生偏差，并会影响p值的计算，从而使从这些p值得出的推论值得怀疑（另请参见@whuber的评论和@Glen_b的答案）。

这就是我自己的看法。它可能不是100％准确（我不是统计学家），但是它可以帮助我理解满足ANOVA假设的重要性。

— 斯特凡
source

您的帐户不错，但是您停止回答问题就没了！的

F

$F$ 无论如何，统计数据都是ANOVA 的有用描述。需要同调和正态假设，以便

F

$F$ 统计数据实际上会有一个

F

$F$ 比例分布此外，相对较小的违反任一假设的趋势往往会导致

F

$F$ 统计量的分布明显偏离

F

$F$ 比率分布，对由此计算出的任何p值产生怀疑。这就是为什么其他答案（例如@Glen_b）关注此分布的原因。

— ub

@whuber非常感谢您的评论，它对我有所帮助。我将不得不让它陷入，并花一些时间看一下

F

$F$ 比率与

F

$F$ 统计分布以及它们如何影响p值的计算。

— Stefan

谢谢斯蒂芬。我想看看我是否正确理解了你。ANOVA本质上是从集合的所有数据点中创建一个总体均值，并比较每个组与该总体均值相差多远，以了解它们之间是否存在统计学上的显着差异。如果不满足所讨论的假设，则均值不能很好地反映出要比较的组，从而导致比较困难

— PaperRockBazooka

@PaperRockBazooka在方差分析中，您正在比较信号与噪声。如果您无法检测到信号（即治疗对结果的影响），则最好将均值作为模型来描述数据。我们正在使用数据点的差与均值（

S S_{t o t a l}

$SS_{total}$ ），数据点的差异指向处理方式（

S S_{r e s i d u a l}

$SS_{residual}$ ），以及处理方式与均值（

S S_{m o d e l}

$SS_{model}$ ）以确定信噪比。尝试手动计算简单的单向方差分析。这有助于我更好地理解它。

— Stefan

0

方差分析只是一种方法，它将根据您的样本计算出F检验，并将其与F分布进行比较。您需要一些假设来决定要比较的内容并计算p值。

如果您不满足该假设，则可以计算其他内容，但它不是方差分析。

最有用的分布是普通分布（由于CLT），这就是为什么它是最常用的分布。如果您的数据不是正态分布的，则至少需要知道其分布是什么才能计算出一些东西。

同质性也是回归分析中的一个常见假设，它使事情变得更容易。我们需要一些假设。

如果您没有同质性，则可以尝试转换数据来实现。

已知ANOVA F检验在固定误报率固定的情况下最大程度地减少误报率方面几乎是最佳的

— kan
source

“ ANOVA”是指将平方和分解为可解释的成分的过程。因此，无论分布假设如何，ANOVA都是ANOVA。

— ub