未配对的t检验需要哪些正态假设？他们什么时候见面？

12

如果我们希望进行配对的t检验，则要求（如果我理解正确的话）是匹配的度量单位之间的平均差应正态分布。

在成对的t检验中，即铰接式（AFAIK）要求匹配的度量单位之间的差异将呈正态分布（即使两个比较组中每个组的分布均不呈正态）。

但是，在不成对的t检验中，我们不能谈论匹配的单位之间的差异，因此我们要求两组的观察值是正常的，以使它们的均值差异是正常的。这引出我的问题：

两个非正态分布是否有可能使它们的均值之差呈正态分布？（因此，据我所知，满足了我们对它们执行未配对t检验的必要要求）。

更新：（谢谢大家的回答）我看到我们正在寻找的一般规则确实是均值的差将是正常的，由于CLT，这似乎是一个很好的假设（在足够大的n下）。对于这对于不成对的t检验如何起作用，这对我来说是令人惊奇的（不足为奇，仅是令人惊奇的），但对于单样本t检验，效果却不佳。这是一些R代码来说明：

n1 <- 10
n2 <- 10
mean1 <- 50
mean2 <- 50
R <- 10000

# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
# hist(diffs)

P <- numeric(R)
MEAN <- numeric(R)
for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    y2 <- runif(n2, 0, 2*mean2)
    MEAN[i] <- mean(y1) - mean(y2)
    P[i] <- t.test(y1,y2)$p.value
}
# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
par(mfrow = c(1,2))
hist(P)
qqplot(P, runif(R)); abline(0,1)
sum(P<.05) / R # for n1=n2=10 -> 0.0715 # wrong type I error, but only for small n1 and n2 (for larger ones, this effect disappears)



n1 <- 100
mean1 <- 50
R <- 10000
P_y1 <- numeric(R)

for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}

par(mfrow = c(1,2))
hist(P_y1)
qqplot(P_y1, runif(R)); abline(0,1)
sum(P_y1<.05) / R # for n1=n2=10 -> 0.057  # "wrong" type I error

谢谢。

t-test normality-assumption assumptions

— 塔尔·加利利
source

5

(X_{i}, Y_{i})

$(X_i,Y_i)$

X_{i}

$X_i$

F

$F$

Y_{i} = X_{i} + Z_{i}

$Y_i = X_i + Z_i$

{Z_{i}}

$\{Z_i\}$

N (0, σ^{2})

$\mathcal{N}(0,\sigma^2)$

17

在实践中，中心极限定理向我们保证，在广泛的假设范围内，无论样本的大小（假设在何处出现），随着样本量的增加，被测试的两个样本均值的分布本身将接近正态分布。基础数据的分布。结果，随着样本数量的增加，均值的差异变得正态分布，并且满足不成对t检验的t统计量具有标称t分布的必要条件。因此，一个更实际适用的问题可能是，在我可以放心地忽略统计量的实际分布与t分布之间的差异之前，样本量必须有多大？

在许多情况下，答案是“不是很大”，尤其是当基础分布非常接近对称时。例如，我模拟了100,000个测试，比较了两个Uniform（0,1）分布的均值，每个均值的样本大小为10，并且以95％的置信度进行测试时，实际上拒绝了空5.19％的时间-几乎没有差异从我们希望的标称5％拒绝率开始（尽管在5％以上约为2.7个标准偏差）。

这就是为什么人们在各种情况下都使用t检验的情况，这些情况实际上并未满足基本假设，但是当然，您的里程可能会有所不同，具体取决于问题的具体情况。但是，还有其他一些不需要正态性的检验，例如Wilcoxon检验，即使数据呈正态分布，其渐近性也比t检验的效率约95％（即，需要样本量（N / 0.95）与样本大小为N的t检验具有相同的功效，因为N达到无穷大。当数据不是正态分布时，它可以（不一定会）比t检验好得多。

— 鲍伯曼
source

6

t

$t$

t

$t$

谢谢弗兰克-您的评论帮助我阐明了一个更接近我所追求的问题：stats.stackexchange.com/questions/19681/…–

— Tal Galili

1

当然。如果不是这种情况，那么独立样本t检验将没有太大用处。我们确实需要更大的样本量，因为要测试两个非正常人群之间的均数差异，我们需要诉诸CLT。

举一个简单的例子，假设总体1来自指数为平均值25的总体，总体2为均值30均匀分布的指标。我们甚至给它们提供不同的样本量。我们可以使用复制函数相对容易地检查使用R时样本均值差异的分布是什么样的。

n1 <- 30
n2 <- 25
mean1 <- 25
mean2 <- 30

diffs <- replicate(10000, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
hist(diffs)

尝试使用样本大小将表明，在样本数量较小的情况下，我们实际上并不具有正态性，但是增加样本数量将使我们在均值上的差异看起来更加正常。当然，您可以更改此示例中使用的分布以进一步研究。历史（差异）

— 达森
source