当两个样本的均值显着不同但差异似乎很小时该怎么办

13

我有两个样本（在两种情况下）。平均值相差大约是标准池的两倍。开发。得到的值大约为10。虽然很高兴知道我已经得出结论说，均值不相同，但在我看来，这是由大n决定的。查看数据的直方图，我当然不认为像p值这样的小值确实可以代表数据，并且老实说，引用它并不太舒服。我可能在问错问题。我在想的是：好的，方法是不同的，但这真的很重要，因为分布共享大量重叠吗？ $n \approx 70$ $T$

贝叶斯测试在这里有用吗？如果是这样，那么从哪里开始是个好地方，那么使用谷歌搜索并没有产生任何有用的东西，但是我可能没有问正确的问题。如果这是错误的事情，那么有人有什么建议吗？还是与定量分析相反，这仅仅是讨论的重点吗？

hypothesis-testing t-test

— 礼帽
source

我只想在所有其他答案中加上您的第一个陈述是错误的：您并没有确定性地表明方法是不同的。t检验的p值是告诉你观测数据或它的更极端的值的概率是否可能/不可能给出的零假设（其为t检验是

，即

： {“均值相等”}），这并不意味着均值实际上是不同的。另外，我假设您还执行了F检验，以便在进行汇总方差t检验之前测试方差的相等性，对吗？

μ_{A} = μ_{B}

$\mu_A=\mu_B$

H_{0}

$H_0$

— 内斯托

您的问题非常好，因为它带来了重要的区别，它表明您实际上是在考虑数据，而不是在统计输出中查找一些恒星并声明自己完成了。正如几个答案所指出的，统计意义和意义并不相同。当您考虑时，它们就不可能是：统计过程如何知道统计上的显着性均值差0.01在字段A中意味着什么，而在字段B中却无意义地小？

— 韦恩2012年

足够公平，语言不是很明显，但是当p值就像我正在得到的p值时，我倾向于对单词不要太挑剔。我确实做了F检验（和QQ图）。正如他们所说，它足够接近爵士乐。

— Bowler

1

FWIW，如果您的平均值相差2 SD，那对我来说似乎是一个很大的不同。当然，这取决于您的领域，但这是人们很容易用肉眼注意到的差异（例如，美国20-29岁男性和女性的平均身高相差约1.5 SD）。完全没有重叠，您实际上不需要进行任何数据分析；如果分布不重叠，则w /

至少应小至6，

小于0.05。

N

$N$

p

$p$

— gung-恢复莫妮卡

我同意差异很大，尽管事实证明那完全是不敬虔的。

— 圆顶硬礼帽2012年

12

让分别表示平均值的第一群体和分别表示平均值的第二群体。看来你已经使用了两样本 -test到测试是否。该显著结果意味着，，但差异似乎是微不足道了您的应用。 $\mu_1$ $\mu_2$ $t$ $\mu_1=\mu_2$ $\mu_1\neq\mu_2$

您所遇到的事实是，在统计上重要的事实通常对于应用程序而言可能不是重要的事情。尽管差异在统计上可能是显着的，但可能仍然没有意义。

贝叶斯测试无法解决该问题-您仍然只能得出结论，即存在差异。

但是可能会有出路。例如，对于一个片面的假设，你可以决定，如果是单位大于，那么这将是一个有意义的差异是足够大的，为您的申请事项。 $\mu_1$ $\Delta$ $\mu_2$

$\mu_1-\mu_2\leq \Delta$ $\mu_1-\mu_2=0$ $t$

T = \frac{{\bar{x}}_{1} - {\bar{x}}_{2} - Δ}{s_{p} \sqrt{1 / n_{1} + 1 / n_{2}}}

$T=\frac{\bar{x}_1-\bar{x}_2-\Delta}{s_p\sqrt{1/n_1+1/n_2}}$

s_{p}

$s_p$

t

$t$

n_{1} + n_{2} - 2

$n_1+n_2-2$

$\Delta$ $t$

— 曼斯
source

8

比较几种方法是有效的，但并非旨在选择一种符合我们的愿望/信念的方法。

我对您的问题的回答是：两种分布可能有重叠，而它们的均值却不同，这似乎是您的情况（但我们需要查看您的数据和上下文才能提供更精确的答案）。

我将使用几种比较正常均值的方法来说明这一点。

$t$

$70$ $N(10,1)$ $N(12,1)$ $t$ $10$

rm(list=ls())
# Simulated data
dat1 = rnorm(70,10,1)
dat2 = rnorm(70,12,1)

set.seed(77)

# Smoothed densities
plot(density(dat1),ylim=c(0,0.5),xlim=c(6,16))
points(density(dat2),type="l",col="red")

# Normality tests
shapiro.test(dat1)
shapiro.test(dat2)

# t test
t.test(dat1,dat2)

$\sigma$

在此处输入图片说明

$\mu$

有关轮廓可能性和可能性的定义，请参见1和2。

$\mu$ $n$ $\bar{x}$ $R_p(\mu)=\exp\left[-n(\bar{x}-\mu)^2\right]$

对于模拟数据，可以在R中按如下方式计算它们

# Profile likelihood of mu
Rp1 = function(mu){
n = length(dat1)
md = mean(dat1)
return( exp(-n*(md-mu)^2) )
}

Rp2 = function(mu){
n = length(dat2)
md = mean(dat2)
return( exp(-n*(md-mu)^2) )
}

vec=seq(9.5,12.5,0.001)
rvec1 = lapply(vec,Rp1)
rvec2 = lapply(vec,Rp2)

# Plot of the profile likelihood of mu1 and mu2
plot(vec,rvec1,type="l")
points(vec,rvec2,type="l",col="red")

$\mu_1$ $\mu_2$

3.后验 $\mu$

$(\mu,\sigma)$

π (μ, σ) \propto \frac{1}{σ^{2}}

$\pi(\mu,\sigma)\propto \dfrac{1}{\sigma^2}$

$\mu$

# Posterior of mu
library(mcmc)

lp1 = function(par){
n=length(dat1)
if(par[2]>0) return(sum(log(dnorm((dat1-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}

lp2 = function(par){
n=length(dat2)
if(par[2]>0) return(sum(log(dnorm((dat2-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}

NMH = 35000
mup1 = metrop(lp1, scale = 0.25, initial = c(10,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]
mup2 = metrop(lp2, scale = 0.25, initial = c(12,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]

# Smoothed posterior densities
plot(density(mup1),ylim=c(0,4),xlim=c(9,13))
points(density(mup2),type="l",col="red")

同样，手段的可信度间隔在任何合理的水平上都不重叠。

总之，您可以看到尽管分布重叠，但所有这些方法如何表明均值的显着差异（这是主要关注点）。

$\star$

${\mathbb P}(X<Y)$ $0.8823825$

# Optimal bandwidth
h = function(x){
n = length(x)
return((4*sqrt(var(x))^5/(3*n))^(1/5))
}

# Kernel estimators of the density and the distribution
kg = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(dnorm((x[i]-data)/hb))/hb
return(r )
} 

KG = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(pnorm((x[i]-data)/hb))
return(r ) 
} 

# Baklizi and Eidous (2006) estimator
nonpest = function(dat1B,dat2B){
return( as.numeric(integrate(function(x) KG(x,dat1B)*kg(x,dat2B),-Inf,Inf)$value))  
}

nonpest(dat1,dat2)

我希望这有帮助。

— 社区
source

2

（+1）感谢您对贝叶斯方法的回复。P（X <Y）链接还回答了我在同一分析中一直想知道的另一个问题。

— Bowler

7

回答正确的问题

好的，方法是不同的，但这真的很重要，因为分布共享大量重叠吗？

任何询问组均值是否不同的测试都会在正确运行时告诉您均值是否不同。它不会告诉您数据本身的分布是不同的，因为这是一个不同的问题。这个问题当然取决于手段是否不同，还取决于可能（不完全）概括为方差，偏斜和峰度的许多其他因素。

您正确地注意到，均值在何处的确定性取决于您必须估计均值的数据量，因此拥有更多数据将使您可以在更接近重叠的分布中发现均值差异。但是你想知道是否

例如小p值确实代表了数据

确实不是，至少不是直接。这是设计使然。可以肯定（大约说）的是，可以确定一对特定的样本数据统计对（而不是数据本身）是不同的。

如果您想以一种更正式的方式来表示数据本身，而不是简单地显示直方图和测试时刻，那么可能需要一对密度图可能会有所帮助。它实际上取决于您使用测试进行的论证。

贝叶斯版本

在所有这些方面，贝叶斯差异“测试”和T检验的行为方式相同，因为它们都在尝试做相同的事情。我可以想到的使用贝叶斯方法的唯一优点是：a）容易进行测试，允许每个组的方差可能不同，并且b）着重于估计均值差异的可能大小而不是为差异检验找到p值。就是说，这些优势非常微小：例如，在b）中，您始终可以报告差异的置信区间。

以上“测试”上方的引号是有意的。贝叶斯假设检验当然是可能的，人们也可以这样做。但是，我认为该方法的比较优势在于将重点放在建立合理的数据模型并以适当的不确定性水平传达其重要方面。

— 共轭先验
source

3

首先，这不是要进行频繁测试的问题。问题在于均值完全相等的零假设。因此，如果总体的均值相差很小，并且样本量足够大，则拒绝该原假设的机会就非常高。因此，测试的p值非常小。罪魁祸首是零假设的选择。选择d> 0并采用零假设为均值的绝对值之差小于d。您选择d，这样实际差异必须足够大才能被拒绝。您的问题就解决了。如果您坚持均值的完全相等的零假设，贝叶斯检验将无法解决您的问题。

— 迈克尔·R·切尼克
source

我与其他两个人同时写答案。

— Michael R. Chernick