这纯粹是一个假设的问题。一个非常普遍的说法是永远都不是真的,这只是样本量的问题。
让我们假设,对于实数,从正态分布的总体中得出的两个均值()绝对没有可测量的差异(对于和估计为)。我们假设每组,我们使用检验。这意味着值为表明与绝对没有差异。这将表明测试统计量为。组之间的平均差为。在这种情况下,均值差的置信区间的极限是多少?他们会吗?
我的问题的重点是,我们什么时候可以真正说出是真实的,即在这种情况下?还是在常客制框架中比较两种方法时可以真正说“没有区别”?
这纯粹是一个假设的问题。一个非常普遍的说法是永远都不是真的,这只是样本量的问题。
让我们假设,对于实数,从正态分布的总体中得出的两个均值()绝对没有可测量的差异(对于和估计为)。我们假设每组,我们使用检验。这意味着值为表明与绝对没有差异。这将表明测试统计量为。组之间的平均差为。在这种情况下,均值差的置信区间的极限是多少?他们会吗?
我的问题的重点是,我们什么时候可以真正说出是真实的,即在这种情况下?还是在常客制框架中比较两种方法时可以真正说“没有区别”?
Answers:
非常懒惰,使用R可以用数字方式解决问题,而不是手动进行计算:
定义一个函数,该函数将给出正态分布值,其均值(几乎!)正好为零,SD为正好 1:
rn2 <- function(n) {r <- rnorm(n); c(scale(r)) }
运行t检验:
t.test(rn2(16),rn2(16))
Welch Two Sample t-test
data: rn2(16) and rn2(16)
t = 1.7173e-17, df = 30, p-value = 1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.7220524 0.7220524
sample estimates:
mean of x mean of y
6.938894e-18 8.673617e-19
由于浮点不精确,均值不完全为零。
更直接地,CI为 sqrt(1/8)*qt(0.975,df=30)
;每个均值的方差是1/16,因此合并方差是1/8。
对于两个样本的T检验(测试两个总体的均值之差),p值正好等于观察到的样本均值完全相等的情况。† (样本方差可以具有任何值。)要看到这一点,请注意,检验的p值函数为:
因此,设置产生:
现在,假设您使用Welch-Satterwaite近似值形成标准(近似)置信区间。在这种情况下,假设(给出精确的p值为1)给出了置信区间:
自由度由Welch-Satterwaite近似确定。根据问题中观察到的样本方差,置信区间可以是以零为中心的任何有限区间。也就是说,置信区间可以有任何限制,只要它正好位于零附近即可。
当然,如果基础数据实际上来自连续分布,则此事件的发生概率为零,但我们假设它发生了。
对于发生可能性为零的事物,很难进行有力的哲学讨论。因此,我将向您展示一些与您的问题有关的示例。
如果您有两个来自同一分布的巨大独立样本,则两个样本仍将具有一定的可变性,合并的2样本t统计量将接近但不完全为 0,P值将分布为 那么95%的置信区间将非常短并以为中心
一个这样的数据集和t检验的示例:
set.seed(902)
x1 = rnorm(10^5, 100, 15)
x2 = rnorm(10^5, 100, 15)
t.test(x1, x2, var.eq=T)
Two Sample t-test
data: x1 and x2
t = -0.41372, df = 2e+05, p-value = 0.6791
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.1591659 0.1036827
sample estimates:
mean of x mean of y
99.96403 99.99177
以下是10,000种此类情况的汇总结果。首先,P值的分布。
set.seed(2019)
pv = replicate(10^4,
t.test(rnorm(10^5,100,15),rnorm(10^5,100,15),var.eq=T)$p.val)
mean(pv)
[1] 0.5007066 # aprx 1/2
hist(pv, prob=T, col="skyblue2", main="Simulated P-values")
curve(dunif(x), add=T, col="red", lwd=2, n=10001)
接下来的测试统计量:
set.seed(2019) # same seed as above, so same 10^4 datasets
st = replicate(10^4,
t.test(rnorm(10^5,100,15),rnorm(10^5,100,15),var.eq=T)$stat)
mean(st)
[1] 0.002810332 # aprx 0
hist(st, prob=T, col="skyblue2", main="Simulated P-values")
curve(dt(x, df=2e+05), add=T, col="red", lwd=2, n=10001)
对于CI的宽度,依此类推。
set.seed(2019)
w.ci = replicate(10^4,
diff(t.test(rnorm(10^5,100,15),
rnorm(10^5,100,15),var.eq=T)$conf.int))
mean(w.ci)
[1] 0.2629603
在满足假设的情况下,用连续数据进行精确测试几乎不可能获得单位P值。如此之多,以至于明智的统计学家会在看到P值为1时思考可能出了什么问题。
例如,您可以给软件两个相同的大样本。编程将好像是两个独立的样本一样进行,并给出奇怪的结果。但是即使那样,CI也不会是0宽度。
set.seed(902)
x1 = rnorm(10^5, 100, 15)
x2 = x1
t.test(x1, x2, var.eq=T)
Two Sample t-test
data: x1 and x2
t = 0, df = 2e+05, p-value = 1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.1316593 0.1316593
sample estimates:
mean of x mean of y
99.96403 99.96403
简单的答案(对Noah的+1)将说明,均值差的置信区间可能仍为非零长度,因为它以与p值不同的方式取决于样本中观察到的变化。
但是,您可能仍然想知道为什么会这样。可以想象,高p值也意味着较小的置信区间,这并不奇怪。毕竟,它们都对应于接近零假设确认的事物。那么为什么这个想法不正确呢?
高p值与小的置信区间不同。
p值通过表达观察给定偏差的可能性来指示特定观察的极端程度(在给定某些假设的情况下)。它是观察到的效应大小的表达相对于在实验的精度(一个大的观察到的效果的大小可能没有太大意义当实验是这样的“不准确的”,这些观察是不极端从统计的观点/概率点)。当观察1的p值,那么这个(仅)意味着观察到的零效果,因为概率来观察这样的结果为零或更大,等于1(但是,有这是不一样的是零效果)。
旁注:为什么要使用p值?p值表示与预期效果大小(概率)相关的实际观察到的效果大小。这是相关的,因为由于数据/保存的共同波动,实验可能会通过纯偶然的机会设计出一些相关效果大小的观测值。要求观察/实验的p值低意味着实验具有较高的精确度-也就是说:观察到的效应大小是由于机会/波动(可能是由于真实效应)而较少/可能。
您应该注意,高p值(不一定)不是针对原假设的证明/支持/任何东西。高p值仅意味着对于给定的原假设而言,观察结果不是显着/极端的,但对于替代假设而言,情况也可能是如此(即,结果符合两个假设的“是/否”效应)。当数据没有携带太多信息(例如高噪声或小样本)时,通常会发生这种情况。
不,因为“缺乏证据并不意味着缺乏证据”。概率可以被认为是逻辑的扩展,具有更多的不确定性,因此可以想象一下,假设检验将返回二进制值:0(假)或1(真),而不是单位间隔上的实数。在这种情况下,适用逻辑的基本规则,如以下示例所示:
- 如果外面下雨,则可能是地面潮湿。
- 地面是湿的。
- 因此,外面下雨了。
地面很可能是湿的,因为下雨了。或可能是由于洒水装置,有人清洁排水沟,供水总管破裂等引起的。更多极端的例子可以在上面的链接中找到。
一个非常普遍的说法是H0永远都不是真的,这只是样本量的问题。
知道自己在说什么,说话准确的人之间不存在。传统的假设检验永远不会得出结论:零为真,但是,是否为零与是否被认定为真是不同的。
这意味着p值为1.00000
对于两尾测试,是的。
表示与H0绝对没有差异。
可以预见,这将被更合理地称为“差异”,而不是仅仅看到平均值与模式不匹配的单个样本。
在这种情况下,均值差的95%置信区间的极限是多少?
我的问题的主要要点是,何时可以真正说出H0为真,即在这种情况下μ1=μ2?
,……”我们可以假设均值的任意小差异,这将与替代假设一致。并且,如果任意小差异,则给出均值的概率任意接近给出零的概率。替代假设不仅包含分布参数(例如均值)不同的可能性,而且还存在完全不同的分布。例如,替代假设包含“两个样本在均值上始终具有差异,是正好是1还是正好是0,每个概率为.5。结果与null一致,结果与之相比更加一致。