具有不对称零分布的两尾检验中的P值


18

我的情况如下:我想通过蒙特卡洛研究比较两个不同测试的值,以评估参数的统计显着性(null为“无影响-参数为零”,而隐含的替代方案为“参数不为零”)。检验A是标准的“均值均等的独立两次样本t检验”,在零值下方差相等。 p

测试B我已经建立了自己。在此,使用的零分布是不对称的一般离散分布。但是我在Rohatgi&Saleh2001,2nd ed,p.462)中发现以下评论

“如果分布不对称,则在两面情况下无法很好地定义值,尽管许多作者建议将一面值加倍ppp。”

作者没有对此进行进一步讨论,也没有评论将单侧值加倍的“许多作者的建议” 。(这产生了一个问题:“将一侧的值加倍?为什么是这一侧而不是另一侧?)ppp

在整个问题上,我找不到其他任何评论,意见或结果。我了解到,对于非对称分布,尽管我们可以针对参数值考虑零假设周围的区间对称性,但我们不会再遇到第二种常见的对称性,即概率质量分配。但是我不明白为什么这会使 值“定义不正确”。就个人而言,通过使用围绕零假设的对称间隔作为估计量的值,我看不到任何定义p说“零分布将产生等于或超出此间隔的边界的值的概率为XX”时出现问题。至少在我看来,一侧的概率质量将与另一侧的概率质量不同的事实似乎并不会引起麻烦。但是,比Rohatgi和Saleh知道我不了解的东西更有可能。

所以这是我的问题:在零分布不对称的情况下进行双向测试时,在什么意义上值“(或可以)定义得不好”?p

一个可能重要的说明:我本着渔业的精神来处理这个问题,我并不是想在Neyman-Pearson的意义上获得严格的决策规则。我让测试的用户将值信息与其他任何信息一起使用来进行推断。p


4
除了基于似然性(“ Fisherian”)和基于LR(NP)的方法之外,另一种方法还考虑了如何获得较短的置信区间并将其用于假设检验。这是根据决策理论的精神(及其方法)完成的,其中长度包含在损失函数之内。对于测试统计信息的单峰对称分布,显然使用对称间隔(基本上是单面测试“使p值加倍”)获得了尽可能短的间隔。最短长度间隔取决于参数设置:因此,它们不能为Fisherian。
ub

我想知道这里发布的答案是否也适用于beta版本。谢谢。
JLT

@JLT:是的,为什么不呢?
Scortchi-恢复莫妮卡

Answers:


12

如果我们看一下2x2精确测试,并将其作为我们的方法,那么“更极端”的情况可能直接由“更低的可能性”来衡量。(Agresti [1]提到了许多作者针对这种 2x2 Fisher精确检验情况计算两个尾部p值的方法,其中该方法是“最流行”的三种方法之一。)

对于连续(单峰)分布,您只需在另一条尾巴中找到与样本值相同密度的点,另一条尾巴中具有相等或更低似然性的所有点都将计入p值的计算中。

对于在尾部单调增加的离散分布,它几乎一样简单。给定我添加的假设(使术语“尾巴”与该想法相符),您便可以以与样本相同或更低的可能性对所有事物进行计数,从而给出了一种解决方案。

如果您熟悉HPD间隔(再一次,我们正在处理单峰性),则基本上就像将所有外部数据都置于样本统计量限定在一个尾部的开放HPD间隔之外。

在此处输入图片说明

[重申-这是我们在此处等于空值的可能性。]

因此,至少在单峰情况下,仿效费舍尔的精确检验并仍然谈论两条尾巴似乎足够简单。

但是,您可能并不想以这种方式调用费舍尔精确测试的精神。

因此,暂时不考虑使某事物“保持或变得更极端”的想法,让我们稍微朝着内曼·皮尔逊的观点走下去。它可以帮助(在测试之前!)开始为在某个通用级别定义的测试定义拒绝区域(我并不是说您必须从字面上计算一个,而只是计算一个)。一旦完成,针对您的案例计算两个尾部p值的方法将变得显而易见。α

即使有人在通常的似然比检验之外进行检验,这种方法也可能很有价值。对于某些应用程序来说,弄清楚如何在非对称置换测试中计算p值可能很棘手...但是,如果您首先考虑拒绝规则,通常会变得非常简单。

通过方差F检验,我注意到“双尾p值”可以为我认为正确的方法提供完全不同的p值。[无论哪个组称为“样本1”,还是在分子中放入较大或较小的方差都无所谓。

[1]:Agresti,A。(1992),
《列联表
统计科学的精确推断调查》,第1卷。7月1号。(二月),第131-153页。


1
ctd ...如果我们正在进行似然比检验,则似然比始终是单尾的,但是如果我们基于某些统计数据构建等效的两尾检验,那么我们仍将寻找较小的似然比来定位“更极端”
Glen_b-恢复莫妮卡2015年

2
将一尾p值加倍可以作为进行两个二尾测试的Bonferroni校正的辩护。毕竟,在经过两尾检验之后,我们通常非常倾向于将对null的真相提出的任何疑问视为偏向于另一个由数据确定方向的假设。
Scortchi-恢复莫妮卡

1
@Alecos简单到足以证明对称选择是正确的!我发现很难看到您如何读到我写的内容,暗示对称选择无论如何都不是一件有效的事情(该选择已包含在我关于拒绝规则的讨论中-您可以轻松地构建对称拒绝规则)。我的回答的第一部分是回答有关费舍尔问题的部分。如果您询问费舍尔,基于他在类似情况下的所作所为,我是否不应该讨论费舍尔可能会做什么?您似乎将我的回应解释为多于事实。
Glen_b-恢复莫妮卡2015年

1
@Alecos特别是,我不是提倡Fisher或Neyman Pearson的方法(无论我们是在谈论似然比检验还是更笼统的假设检验),也不应该认为我试图暗示我遗漏的任何内容都是错误的。我只是在讨论您似乎在提问中提出的一些问题。
Glen_b-恢复莫妮卡2015年

2
最终,是的。费舍尔方法的整洁之处在于,它提供了一种非常明智的方式来获得p值,甚至没有其他选择。但是,如果您确实有特定的替代方案,可以通过声明样本空间中替代方案倾向于将您的样本作为拒绝区域的部分,将您的拒绝区域或多或少地精确定位到那些替代方案。检验统计量T是实现此目的的便捷方法,本质上是通过将单个数字与其中的每个点相关联(给我们一个以T度量的“更极端”)。... ctd
Glen_b-恢复莫妮卡

9

STST=|S|

S 2 tt=min(PrH0(S<s),PrH0(S>s))S2t

当具有连续分布时,用@Glen_b表示的形成两尾检验的方法-将的密度定义为检验统计量: -当然会产生有效的p值;但我不确定费舍尔是否曾经推荐过它,或者新渔民目前是否推荐过它。如果乍一看它似乎比双尾p值加倍更有原则,请注意,必须处理概率密度而不是质量,这意味着当检验统计量为1时,这样计算出的双尾p值可能会改变。由保留订单功能转换。例如,如果要检验高斯均值等于零的零值,则可以取一个观测值并获得SST=fS(S)X1.66,另一尾的密度相等的值为,因此值但是,如果将对数高斯几何均值等于1并进行单次观测并获得作为测试零值,则将另一尾的密度相等的值为(),因此值1.66

p=Pr(X>1.66)+Pr(X<1.66)=0.048457+0.048457=0.09691.
Ye1.66=5.25930.025732=e3.66
p=Pr(Y>5.2593)+Pr(Y<0.025732)=0.048457+0.00012611=0.04858.

在此处输入图片说明

请注意,累积分布函数对于保持顺序的转换是不变的,因此在上面的示例中,将最低p值加倍得到

p=2t=2min(Pr(X<1.66),Pr(X>1.66))=2min(Pr(Y<5.2593),Pr(Y>5.2593))=2min(0.048457,0.951543)=2×0.048457=0.09691.

这里可以找到一种答案的续集,其中讨论了测试构造的一些原理,其中明确提出了替代假设。

†当具有离散分布时,写S

pL=PrH0(Ss)
pü=H0小号s

对于较低和较高的一尾p值,两尾p值由下式给出:

ŤŤ={p大号+H0Püp大号什么时候 p大号püpü+H0P大号pü除此以外

; 即,通过将较小的单尾p值添加到不超过该值的另一​​尾巴中可实现的最大p值。注意,仍然是一个上限。2Ť


1
哇哦 这是一个非常好的观点,+ 1。那你有什么建议呢?另外,我是否可以将此差异解释为对应于测试统计信息的不同选择(在这种情况下为隐式)?
变形虫说恢复莫妮卡

1
@amoeba:不是错字!而当您观察到1.66时,则取最小值0.952和0.048。如果您实际观察到-3.66,则最小值为0.0001和0.9999。
Scortchi-恢复莫妮卡

1
@Scortchi我刚刚接受了Glen_b的回答,因为从狭义上讲,它对我来说更“有用”。但是您的帮助使我避免了“仅此而已”的思想陷阱,这是应对未来风险的绝佳保险政策。再次感谢。
Alecos Papadopoulos

1
@Scortchi我必须同意;我的回答是一个非常简单和单方面的观点,我应该限定,扩展并证明答案。我可能会分几个阶段进行。
Glen_b-恢复莫妮卡2015年

1
@Glen_b:谢谢,我很期待。我还想扩展我的知识,以展示得分测试和广义似然比测试如何给出不同的答案(通常);在这种情况下,毫无偏见的测试理论无疑值得一提(但我几乎记不起来了)。
Scortchi-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.