如果p值正好为1(1.0000000),那么置信区间限制应为多少才能支持原假设为真?[关闭]


12

这纯粹是一个假设的问题。一个非常普遍的说法是永远都不是真的,这只是样本量的问题。H0

让我们假设,对于实数,从正态分布的总体中得出的两个均值()绝对没有可测量的差异(对于和估计为)。我们假设每组,我们使用检验。这意味着值为表明与绝对没有差异。这将表明测试统计量为。组之间的平均差为。在这种情况下,均值差的置信区间的极限是多少?他们会吗μ1=μ2μ=0σ=1N=16tp1.00000H00095%[0.0,0.0]

我的问题的重点是,我们什么时候可以真正说出是真实的,即在这种情况下?还是在常客制框架中比较两种方法时可以真正说“没有区别”?H0μ1=μ2


1
我想说这已经在这里stats.stackexchange.com/questions/275677/…中得到了回答,但是我并没有坚持。
蒂姆

1
我在想出一种方法来使总体人口差异为时遇到麻烦。p=1
戴夫


3
“我们假设每组N = 16,我们使用t检验。这意味着p值为1.00000,表明与H0绝对没有差异。” 为什么要争论某事(“ this”指的是什么?)意味着p值为1。通常,当H_0为true时,p值是均匀分布的,而p = 1几乎不会发生。
Sextus Empiricus

2
@MartijnWeterings绝对正确-只是因为您采样了两个实际上相同的分布,并不意味着比较它们时p值将为1。根据定义,5%的时间您的p值会低于0.05。
核王

Answers:


16

t检验的置信区间的格式为,其中和是样本均值,是给定处的临界值,而是均值差异的标准误差。如果,则。因此公式只是,限制仅为{,x¯1x¯2±tcrit,αsx¯1x¯2x¯1x¯2tcrit,αtαsx¯1x¯2p=1.0x¯1x¯2=0±tcrit,αsx¯1x¯2tcrit,αsx¯1x¯2tcrit,αsx¯1x¯2 }。

我不确定您为什么会认为限制为临界值不为零,平均差的标准误差也不为零。{0,0}.t


10

非常懒惰,使用R可以用数字方式解决问题,而不是手动进行计算:

定义一个函数,该函数将给出正态分布值,其均值(几乎!)正好为零,SD为正好 1:

rn2 <- function(n) {r <- rnorm(n); c(scale(r)) }

运行t检验:

t.test(rn2(16),rn2(16))

    Welch Two Sample t-test

data:  rn2(16) and rn2(16)
t = 1.7173e-17, df = 30, p-value = 1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.7220524  0.7220524
sample estimates:
   mean of x    mean of y 
6.938894e-18 8.673617e-19 

由于浮点不精确,均值不完全为零。

更直接地,CI为± sqrt(1/8)*qt(0.975,df=30);每个均值的方差是1/16,因此合并方差是1/8。


8

CI可以有任何限制,但精确地以零为中心

对于两个样本的T检验(测试两个总体的均值之差),p值正好等于观察到的样本均值完全相等的情况。 (样本方差可以具有任何值。)要看到这一点,请注意,检验的p值函数为:

pp(x,y)=P(|X¯Y¯SY/nY+SY/nY||x¯y¯sY/nY+sY/nY|).

因此,设置产生:x¯=y¯

p(x,y)=P(|X¯Y¯SY/nY+SY/nY|0)=1.

现在,假设您使用Welch-Satterwaite近似值形成标准(近似)置信区间。在这种情况下,假设(给出精确的p值为1)给出了置信区间:x¯=y¯

CI(1α)=[0±sXnX+tDF,α/2sYnY],

自由度由Welch-Satterwaite近似确定。根据问题中观察到的样本方差,置信区间可以是以零为中心的任何有限区间。也就是说,置信区间可以有任何限制,只要它正好位于零附近即可。DF


当然,如果基础数据实际上来自连续分布,则此事件的发生概率为零,但我们假设它发生了。


问题说“σ估计= 1”。
累积

获得p值为1的条件不是必需的,因此我删除了它。
本-恢复莫妮卡

3

对于发生可能性为零的事物,很难进行有力的哲学讨论。因此,我将向您展示一些与您的问题有关的示例。

如果您有两个来自同一分布的巨大独立样本,则两个样本仍将具有一定的可变性,合并的2样本t统计量将接近但不完全为 0,P值将分布为 那么95%的置信区间将非常短并以为中心Unif(0,1),0.

一个这样的数据集和t检验的示例:

set.seed(902)
x1 = rnorm(10^5, 100, 15)  
x2 = rnorm(10^5, 100, 15)
t.test(x1, x2, var.eq=T)

        Two Sample t-test

data:  x1 and x2
t = -0.41372, df = 2e+05, p-value = 0.6791
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.1591659  0.1036827
sample estimates:
mean of x mean of y 
 99.96403  99.99177 

以下是10,000种此类情况的汇总结果。首先,P值的分布。

set.seed(2019)
pv = replicate(10^4, 
   t.test(rnorm(10^5,100,15),rnorm(10^5,100,15),var.eq=T)$p.val)
mean(pv)
[1] 0.5007066   # aprx 1/2
hist(pv, prob=T, col="skyblue2", main="Simulated P-values")
 curve(dunif(x), add=T, col="red", lwd=2, n=10001)

在此处输入图片说明

接下来的测试统计量:

set.seed(2019)  # same seed as above, so same 10^4 datasets
st = replicate(10^4, 
       t.test(rnorm(10^5,100,15),rnorm(10^5,100,15),var.eq=T)$stat)
mean(st)
[1] 0.002810332  # aprx 0
hist(st, prob=T, col="skyblue2", main="Simulated P-values")
 curve(dt(x, df=2e+05), add=T, col="red", lwd=2, n=10001)

在此处输入图片说明

对于CI的宽度,依此类推。

set.seed(2019)
w.ci = replicate(10^4, 
        diff(t.test(rnorm(10^5,100,15),
         rnorm(10^5,100,15),var.eq=T)$conf.int)) 
mean(w.ci)
[1] 0.2629603

在满足假设的情况下,用连续数据进行精确测试几乎不可能获得单位P值。如此之多,以至于明智的统计学家会在看到P值为1时思考可能出了什么问题。

例如,您可以给软件两个相同的大样本。编程将好像是两个独立的样本一样进行,并给出奇怪的结果。但是即使那样,CI也不会是0宽度。

set.seed(902)
x1 = rnorm(10^5, 100, 15)  
x2 = x1
t.test(x1, x2, var.eq=T)

        Two Sample t-test

data:  x1 and x2
t = 0, df = 2e+05, p-value = 1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval: 
 -0.1316593  0.1316593
sample estimates:
mean of x mean of y 
 99.96403  99.96403 

但是,这很公平,因为正态分布是连续的,所以任何特定示例的概率都是零,无论u1 = u2还是u1-u2 = -0.977还是什么都无关紧要。我很想按照“这将永远不会发生,在那种情况下机会肯定是错的”的方式发表评论,但后来我想,不,可以说,假设这已经发生,并接受了作为任何具体例子,概率为零。
Lewian

1
这是对错误问题的正确答案
David

1
@ 大卫。可能是这样。如果您可以说出自己认为正确的问题并提出答案,那么这可能会有所帮助。我仅尝试解决一些我认为是几种误解的问题。
BruceET

OP指出“一个非常普遍的说法是H0永远不会为真。” @BruceET的答案表明,为什么H0无法被接受。H0越接近真,则随机P越均匀,这意味着(H)真时(0.98,0.99)之间的P与(0.1,0.2)之间的P一样。
罗恩·詹森-我们都是Monica

1

简单的答案(对Noah的+1)将说明,均值差的置信区间可能仍为非零长度,因为它以与p值不同的方式取决于样本中观察到的变化

但是,您可能仍然想知道为什么会这样。可以想象,高p值也意味着较小的置信区间,这并不奇怪。毕竟,它们都对应于接近零假设确认的事物。那么为什么这个想法不正确呢?

高p值与小的置信区间不同。

  • p值通过表达观察给定偏差的可能性来指示特定观察的极端程度(在给定某些假设的情况下)。它是观察到的效应大小的表达相对于在实验的精度(一个大的观察到的效果的大小可能没有太大意义当实验是这样的“不准确的”,这些观察是不极端从统计的观点/概率点)。当观察1的p值,那么这个(仅)意味着观察到的零效果,因为概率来观察这样的结果为零或更大,等于1(但是,有这是不一样的零效果)。

    旁注:为什么要使用p值?p值表示与预期效果大小(概率)相关的实际观察到的效果大小。这是相关的,因为由于数据/保存的共同波动,实验可能会通过纯偶然的机会设计出一些相关效果大小的观测值。要求观察/实验的p值低意味着实验具有较高的精确度-也就是说:观察到的效应大小是由于机会/波动(可能是由于真实效应)而较少/可能。

    XN(0,1)P(X=0)=0

  • αα

    您应该注意,高p值(不一定不是针对原假设的证明/支持/任何东西。高p值仅意味着对于给定的原假设而言,观察结果不是显着/极端的,但对于替代假设而言,情况也可能是如此(即,结果符合两个假设的“是/否”效应)。当数据没有携带太多信息(例如高噪声或小样本)时,通常会发生这种情况。

p0.5pU(0,1)


1

H0μ1=μ2

不,因为“缺乏证据并不意味着缺乏证据”。概率可以被认为是逻辑的扩展,具有更多的不确定性,因此可以想象一下,假设检验将返回二进制值:0(假)或1(真),而不是单位间隔上的实数。在这种情况下,适用逻辑的基本规则,如以下示例所示

  • 如果外面下雨,则可能是地面潮湿。
  • 地面是湿的。
  • 因此,外面下雨了。

地面很可能是湿的,因为下雨了。或可能是由于洒水装置,有人清洁排水沟,供水总管破裂等引起的。更多极端的例子可以在上面的链接中找到。

μ1μ20

p=1±0H0


0

没有什么可以阻止您使用标准的t或高斯公式来计算置信区间-所需的所有信息都在您的问题中给出。p = 1并不表示这有什么问题。注意p = 1并不能意味着你可以特别确保H0是真的。仍然存在随机变化,如果u0 = u1可以在H0下发生,则如果u0的真实值与真实u1略有不同,也会发生随机变化,因此,置信区间中的余量将不仅仅是相等。


我做了一些编辑,希望现在再定义一下。
arkiaamu

好的,我删除了对早期版本中定义不明确的内容的引用。同时,这个问题已被其他人正确回答。
Lewian

请使用MathJax表示法
David

0

一个非常普遍的说法是H0永远都不是真的,这只是样本量的问题。

知道自己在说什么,说话准确的人之间不存在。传统的假设检验永远不会得出结论:零为真,但是,是否为零与是否被认定为真是不同的。

这意味着p值为1.00000

对于两尾测试,是的。

表示与H0绝对没有差异。

H0H00H0H0 可以预见,这将被更合理地称为“差异”,而不是仅仅看到平均值与模式不匹配的单个样本。

在这种情况下,均值差的95%置信区间的极限是多少?

f(ϵ)ϵlimϵ0f(ϵ)

我的问题的主要要点是,何时可以真正说出H0为真,即在这种情况下μ1=μ2?

123.5.1,……”我们可以假设均值的任意小差异,这将与替代假设一致。并且,如果任意小差异,则给出均值的概率任意接近给出零的概率。替代假设不仅包含分布参数(例如均值)不同的可能性,而且还存在完全不同的分布。例如,替代假设包含“两个样本在均值上始终具有差异,是正好是1还是正好是0,每个概率为.5。结果与null一致,结果与之相比更加一致。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.