人们为什么使用p值而不是计算给定数据的模型概率?


43

粗略地说,p值给出了在给定假设(模型)的情况下观察到的实验结果的概率。有了这个概率(p值),我们想判断我们的假设(可能性有多大)。但是,鉴于观察到的结果,计算假设的概率不是更自然吗?

在更多细节。我们有一枚硬币。我们翻转它20次,得到14个头(20个中的14个是我所说的“实验结果”)。现在,我们的假设是硬币是公平的(头和尾的概率彼此相等)。现在,我们计算p值,该值等于在20次硬币翻转中获得14个或更多正面的概率。好的,现在我们有了这个概率(0.058),我们想用这个概率来判断我们的模型(我们有一个公平的硬币的可能性如何)。

但是,如果我们想估计模型的概率,为什么不给定实验就计算模型的概率呢?为什么在给定模型(p值)的情况下计算实验的概率?


您仍然必须以某种方式对实验进行建模,以便能够计算似然函数。
Raskolnikov 2010年

11
皮特·迪克森(Pete Dixon)早在1998年就撰写了一篇名为“为什么科学家重视p值”的文章(psychonomic.org/backissues/1631/R382.pdf),可能会为您提供有益的阅读。一个很好的后续行动是Glover&Dixon在2004年发表的关于似然比作为替代指标的论文(pbr.psychonomic-journals.org/content/11/5/791.full.pdf)。
Mike Lawrence 2010年

2
迈克,可疑地看起来像是对我的一个很好的答案。评论中的内容是什么?
马特·帕克

约翰·库克(John D Cook)对我的问题发表了出色的答案,我认为您会发现这很有趣:stats.stackexchange.com/questions/1164/…–
doug

人们不使用p值,统计学家则使用p值。(无法拒绝一个精妙的说法,这也是正确的。当然,一旦您对每个名词进行了适当的限定,它就会失去其原义。)
Wayne

Answers:


31

计算假设正确的概率并不完全符合概率的概率论定义(长期运行),这是为了避免贝叶斯概率定义的主观性。特定假设的真相不是随机变量,它是正确的,也可能不是,并且没有长期运行的频率。对假设真相的概率感兴趣的确确实更自然,这是恕我直言,为什么p值经常被误解为零假设为真的概率。困难的部分原因是,根据贝叶斯规则,我们知道要计算假设为真的后验概率,您需要从假设为真的先验概率开始。

给定数据(和他/她的先前信念),贝叶斯计算假设为真的概率。

从本质上来说,在确定频度方法和贝叶斯方法之间的选择是一种选择,即贝叶斯方法的假设主观性是否比频度方法通常不能直接回答您实际要提出的问题这一事实更可憎-但仍有空间都。

在询问硬币是否公平,即正面概率等于反面概率的情况下,我们还有一个假设的例子,我们从一开始就知道在现实世界中几乎肯定是错误的。硬币的两侧是不对称的,因此我们应该期望正面和反面的概率略有不对称,因此,如果硬币“通过”测试,这仅意味着我们没有足够的观察力能够总结一下我们已经知道是真的-硬币有点轻微的偏斜!


4
实际上,大多数硬币实际上都非常接近公平,很难提出一种在物理上看似合理的方法来对它们造成很大的偏差-参见例如stat.columbia.edu/~gelman/research/published/diceRev2.pdf
Ben Bolker

8
非常接近公平与完全公平不是一回事,这是零假设。我当时指出了假设检验的一种特质,即我们经常知道零假设是假的,但无论如何都要使用它。一个更实际的测试旨在检测是否有证据表明硬币有明显偏差,而不是有证据表明硬币有偏差。
迪克兰有袋动物博物馆

1
嗨,也许是我错了,但是我在科学中认为,您永远不能说替代假设是正确的,您只能说原假设被拒绝并且您接受替代假设。对我来说,p值反映了您将犯类型1错误的机会,即,您将拒绝替代假设并接受无效假设(例如p = .05或5%的时间。区分类型1很重要错误和类型2错误,以及权力在事件建模中发挥的作用
user2238 2010年

3
对于常客性检验,我将使用一个更弱的说法,即您“拒绝原假设”或“未能拒绝原假设”并且不接受任何内容。关键是(例如在偏见硬币的情况下)有时您会先验地知道零假设不成立,只是您没有足够的数据来证明其不成立。在这种情况下,“接受”它会很奇怪。频繁检验具有I型和II型错误率,但这并不意味着他们可以像OP中那样谈论特定假设为真的可能性。
Dikran有袋动物博物馆,2010年

2
@ user2238 p值在原假设为“简单”(非复合)且恰好为真时才是类型I错误的机会。例如,在单侧测试硬币是否偏向尾巴的情况下(),使用双头硬币可确保即使来自的p值,I型错误的可能性也为零。任何有限样本将为非零。H0:p<0.5
ub

18

没有什么比回答一个真正的老问题了,但是这里...

p值几乎是有效的假设检验。这是从杰恩斯(Jaynes)2003年的概率论书(重复实验:概率和频率)中摘录的经过改编的摘录。假设我们要检验一个零假设。我们有数据和以前的信息。假设有一些未指定的假设,我们将针对其进行检验。对的后验优势比为: D I H A H 0 H A H 0H0DIHAH0HAH0

P(HA|DI)P(H0|DI)=P(HA|I)P(H0|I)×P(D|HAI)P(D|H0I)

现在,右侧的第一项与数据无关,因此数据只能通过第二项影响结果。现在,我们总是可以发明一个替代假设,使得一个“完美拟合”假设。因此,我们可以使用来衡量数据对空值的支持情况。没有其他假设可以证明数据在的支持程度可以大于。我们还可以限制替代项的类别,变化是将替换为该类别中的最大可能性(包括归一化常数)。如果 P D | H A I = 1 1HAP(D|HAI)=1 H011P(D|H0I)H0 1PD|H0IH0HAtD>t0tDDtD1P(D|H0I)1P(D|H0I)开始变得太小,然后我们就开始怀疑空值,因为和之间的替代项数量增加了(包括一些先验概率不可忽略的)。但这几乎是用p值完成的工作,但是有一个例外:我们不为某些统计和统计的某些“坏”区域计算的概率。我们计算的概率是我们实际拥有的信息,而不是。H0HAt(D)>t0t(D)Dt(D)

人们使用p值的另一个原因是,它们通常等于“适当的”假设检验,但可能更易于计算。我们可以通过一个非常简单的示例来证明这一点,该示例以已知方差测试正常均值。我们有数据,其模型为(先前信息)。我们要测试。经过一些计算,我们得到:X Ñ ö ř μ σ 2ħ 0μ = μ 0D{x1,,xN}xiNormal(μ,σ2)IH0:μ=μ0

P(D|H0I)=(2πσ2)N2exp(N[s2+(x¯μ0)2]2σ2)

其中和。这表明当时将达到的最大值。最大值为:s2=1x¯=1Ni=1NxiPd|H ^0μ0=&OverBar; Xs2=1Ni=1N(xix¯)2P(D|H0I)μ0=x¯

P(D|HAI)=(2πσ2)N2exp(Ns22σ2)

因此,我们将两者的比率取为:

P(D|HAI)P(D|H0I)=(2πσ2)N2exp(Ns22σ2)(2πσ2)N2exp(Ns2+N(x¯μ0)22σ2)=exp(z22)

其中是“ Z统计量”。大值 相对于有关数据最有力支持的正常均值的假设,对原假设提出了疑问。我们还可以看到是所需数据的唯一部分,因此对于测试来说是足够的统计信息。z=Nx¯μ0σ|z|x¯

针对此问题的p值方法几乎相同,但相反。我们从足够的统计量,然后计算其抽样分布,这很容易显示为 -我使用大写字母将随机变量与观察值区分开。现在我们需要找到一个对原假设产生怀疑的区域:很容易看出这些区域是大。因此,我们可以计算的概率x¯X¯Normal(μ,σ2N)X¯x¯|X¯μ0||X¯μ0||x¯μ0|用来衡量观察到的数据与原假设之间的距离。和以前一样,这是一个简单的计算,我们得到:

p-value=P(|X¯μ0||x¯μ0||H0)
=1P[N|x¯μ0|σNX¯μ0σN|x¯μ0|σ|H0]
=1P(|z|Z|z||H0)=2[1Φ(|z|)]

现在,我们可以看到p值是的单调递减函数。,这意味着我们基本上得到与“正确”假设检验相同的答案。当p值低于某个阈值时拒绝则与后验赔率高于某个阈值时拒绝相同。但是,请注意,在进行适当的测试时,我们必须定义替代项的类别,并且必须使该类别的可能性最大化。对于p值,我们必须找到一个统计量,并计算其抽样分布,并根据观察值进行评估。从某种意义上说,选择一项统计信息等效于定义您正在考虑的替代假设。|z|

尽管在此示例中它们都很容易做到,但是在更复杂的情况下它们并不总是那么容易。在某些情况下,可能更容易选择要使用的正确统计信息并计算其抽样分布。在其他情况下,定义替代项的类别并在该类别上最大化可能会更容易。

这个简单的示例说明了大量基于p值的检验,这仅仅是因为如此多的假设检验属于“近似正常”变量。它也为您的硬币问题提供了一个近似的答案(通过使用二项式的正态近似)。它还表明,在这种情况下,p值不会使您误入歧途,至少就检验单个假设而言。在这种情况下,我们可以说p值是针对原假设的证据的度量。

但是,与贝叶斯因子相比,p值的可解释性范围较小-p值与针对零值的证据“数量”之间的联系很复杂。p值过小或过快-使其难以正确使用。他们倾向于夸大对数据提供的null的支持。如果我们解释p值作为对空概率-在赔率形式是,当实际证据是,和的比值形式是时实际的证据是。换句话说,使用p值作为此处null为假的概率等同于设置先验赔率。所以对于 p值0.193.870.05196.830.1相对于null的隐含先验几率是,对于p值,相对于null的隐含先验几率是。2.330.052.78


4
+1。“ ...选择一个统计信息等效于定义您正在考虑的替代假设”,这使我深刻理解。
whuber

好答案。值得注意的是(尽管很明显),对于一个较小的大于一类替代方案通常在计算上是禁止的,更不用说如果必须使用无数或无数种替代方案(也可能会发生)在实践中。p值方法的一大优点是,它通常(通常是?)计算简单/易处理。ķkk
Faheem Mitha

1
@ faheemmitha-您对组合爆炸是正确的,但是对于我所描述的方法却没有发生(实际上,您可以证明贝叶斯方法有效地定义了残差)。这是因为我们只需要定义类然后最大化即可。我们无需评估每种选择,只需找到最佳选择即可。
概率

为什么回答社区Wiki?
变形虫说恢复莫妮卡

10

作为一名前学者,我开始实践。人们使用p值是因为它们很有用。在教科书中的硬币翻转示例中看不到它。当然,他们在基础上不是很扎实,但是也许这并没有像我们在学术上思考时所想的那样必要。在数据世界中,我们被无限多的可能需要研究的事物所包围。使用p值计算时,您只需要了解无趣的内容以及对哪种数据可能感兴趣的数值启发式方法(好吧,加上无趣的概率模型)。然后,我们可以单独地或集体地进行非常简单的扫描,从而消除了大部分无关紧要的问题。p值使我们可以说:“如果我对这个问题没有太多的优先考虑,


10

您的问题是经常性推理的一个很好的例子,并且实际上是很自然的。我在课堂上使用了这个示例来演示假设检验的性质。我要求一名志愿者来预测掷硬币的结果。无论结果如何,我都会记录一个“正确”的猜测。我们反复这样做,直到班级变得可疑为止。

现在,他们脑子里有了一个空模型。他们认为硬币是公平的。假设50%正确的假设是什么时候都是公平的,那么每次后续的正确猜测都会引起人们对公平硬币模型不正确的怀疑。一些正确的猜测,他们接受机会的作用。经过5到10次正确的猜测后,班级总是开始怀疑公平硬币的机会很低。因此,这是在常识模型下进行假设检验的本质。

它是常识假设检验的清晰直观的表示。给定null为真是观察到的数据的概率。如这个简单的实验所示,它实际上是很自然的。我们认为该模型为50-50是理所当然的,但是随着证据的增加,我拒绝该模型并怀疑还有其他问题。

因此,如果在我假定的模型(p值)下,我观察到的概率较低,那么我有信心拒绝假定的模型。因此,考虑到机会的作用,p值是对我的假设模型的有用证据。

免责声明:我从一篇很长的被遗忘的文章中进行了此练习,我记得这是ASA的期刊之一。


布雷特,这很有趣,也是一个很好的例子。在我看来,这里的模型似乎是人们期望头和尾的顺序以随机的方式发生。例如,如果我连续看到5个头,则可以推断出这是一个非随机过程的示例。实际上,在这里我可能是错的,Toin coss的概率(假设随机性)为正面为50%,反面为50%,这完全与先前的结果无关。关键是,如果我们掷硬币50000次,并且前25000是正面,假设其余25000是
正面

@ user2238:您的上一条陈述是正确的,但是这种情况很少见。实际上,如果硬币是公平的,那么看到5个投掷中的5个正面将只发生3%的时间。null总是有可能为真,而我们目睹了罕见的事件。
布雷特

6

“粗略地说,p值给出了在给定假设(模型)的情况下观察到的实验结果的概率。”

但事实并非如此。甚至不大致-这捏造了本质上的区别。

正如Raskolnikov所指出的,该模型未指定,但让我们假设您的意思是一个二项式模型(独立抛硬币,固定未知硬币偏差)。假设是该模型中的相关参数(正面偏倚或概率)为0.5。

“有了这个概率(p值),我们就可以判断我们的假设(可能性有多大”)

我们可能确实希望做出此判断,但是p值不会(也并非旨在)帮助我们这样做。

“但是,鉴于观察到的结果,计算假设的可能性不是更自然吗?”

也许会。参见上面有关贝叶斯的所有讨论。

“ [...]现在,我们计算p值,该值等于在20次硬币翻转中获得14个或更多的正面的概率。好吧,现在我们有了这个概率(0.058),我们想用这个概率来判断我们的模型(我们有可能获得一个公平的硬币)。”

“关于我们的假设,假设我们的模型是正确的”,但本质上是:是的。大的p值表明硬币的行为与假说是公平的一致。(它们通常也与假设为假,但非常接近真实,因此我们没有足够的数据可说;请参阅“统计能力”。)

“但是,如果我们想估计模型的概率,为什么不给定实验就计算模型的概率呢?为什么要给定模型(p值)来计算实验的概率呢?”

在这种设置下,我们实际上不计算假设的可能性。毕竟,在假设为真的情况下,恰好看到10个正面的概率仅为0.176,这是可能的值。这根本不是一个有趣的数量。

同样重要的是,我们通常也不会估计模型的概率。频繁回答者和贝叶斯回答者都通常假设模型是真实的,并对其模型进行推断。确实,并不是所有贝叶斯理论上对模型的概率感兴趣,也就是说,该概率是:通过二项分布很好地模拟了整个情况的概率。他们可能会进行大量模型检查,但从未真正询问过二项式在其他可能模型空间中的可能性。关心贝叶斯因素的贝叶斯主义者很感兴趣,其他人则不是那么感兴趣。


2
嗯,两票否定。如果答案很糟糕,那就有一些评论。
conjugateprior

我喜欢这个答案。有时,人们会否决答案,因为它与教科书不一样,并试图摆脱所有包含常识或描述等非常规知识的讨论。
Vass

我没有投票,但我认为问题是您的观点不清楚。
猫王


3

我只想说几句话。我同意您的观点,过度使用是有害的。p

  • 应用统计中的某些人会误解,尤其是将它们理解为原假设成立的概率;请参阅这些论文:P值不是错误概率,以及我们为什么不真正知道“统计意义”是什么意思:重大的教育失败p

  • 另一个常见的误解是,同时反映样本的大小和效果的大小时,反映的是检测到的效果的大小或其分类的潜力。这导致一些人写论文来解释为什么显示为与字符“强烈关联”的变量(即具有非常小的p值)为什么是较差的分类器,例如这样的分类器...p

  • 总而言之,我的观点是由于出版物标准而被广泛使用。在应用领域(生物统计仪...),某些审查者有时会担心其大小。p


2

定义概率。我是认真的。在继续前进之前,我们需要确定条件。

概率的直观定义是不确定性的量度。我们不确定下一次掷硬币的方向是正面还是反面。那就是数据不确定性。我们也不确定硬币是否公平。那就是关于模型不确定性,或者您可以称呼有关世界状况的不确定性。DM

要获得条件分布,您需要具有联合分布 -即,了解流通中的整个硬币种群,伪造了多少硬币以及如何伪造的硬币的行为(这可能取决于硬币的旋转和空中捕获方式)。P(M|D)P(M,D)

在硬币的特定示例中,这至少在概念上是可能的-政府数字可用于应该是公平的硬币(每年28 10 9),或者至少具有稳定特征的硬币上。就伪造硬币而言,不到一百万的生产规模可能不值得一提,因此可能是您从收银员的收银机中获得的硬币不公平的可能性。然后,您需要提出一个模型,描述不正当硬币的工作原理……并获得联合分布以及数据条件。106/28109

在现实世界中,诸如医疗条件及其工作方式等问题,您可能无法提出关节分布的所有这些组成部分,也无法适应。

贝叶斯建模提供一种简化模型并提出这些接头。但是魔鬼在细节上。如果您说公平硬币是硬币,然后继续指定传统的Beta优先级,并获得Beta共轭后验,那么……惊喜,惊喜!无论您的先验是还是,对于这些连续分布中的任何一个,。因此,您必须合并一个点质量为的点质量,并赋予它一个先验质量(P(M,D)p=0.5P(p=0.5)=0B(0.5,0.5)B(1000,1000)0.528109/(28109+106)(例如),然后查看您的数据是否将后验点移离该点质量。这是涉及Metropolis-Hastings采样而不是更传统的Gibbs采样的更复杂的计算。

除了在讨论正确的模型是什么方面存在困难之外,贝叶斯方法还具有处理模型错误指定的有限方法。如果您不喜欢高斯误差,或者您不相信抛硬币的独立性(您的手在前10,000次抛掷后会感到疲倦,因此您的抛掷次数不会达到前1,000次的最高,这可能会影响概率),在贝叶斯世界中,您所能做的就是建立一个更复杂的模型-正常混合的先验先验破坏,概率随时间的样条曲线等等。但是,没有任何与Huber三明治式标准错误的直接相似之处,后者明确承认该模型可能指定有误,并准备对此加以说明。

回到我的第一段-再次定义概率。正式定义是三重奏。是可能的结果空间(模型和数据的组合)。是可在该空间上测量的代数。是附属于子集,的概率测度/密度- 必须对其进行测量才能使概率数学发挥作用。在有限维度上,最合理的集合是可测量的-请参阅Borel集<Ω,F,P>ΩFσPAΩAF,我不会为您带来细节。使用更有趣的无限空间(例如,曲线和轨迹的那些空间),事情很快就会变得多毛。如果你有一个随机过程上的时间单位间隔,则所述一组是可测,尽管它的表面上的简单。(对于这样的集合,可以测量有限,实际上会生成所需的代数。但这显然还不够。 。)因此,即使在定义级别上,大范围内的概率也可能变得棘手,更不用说计算了。Xt,t[0,1]{Xt>0,t[0,0.5]}{Xt>0,t{t1,t2,,tk}}kσ


1

但是,如果我们想估计模型的概率,为什么不给定实验就计算模型的概率呢?

因为我们不知道如何。存在无限数量的模型,并且未定义其概率空间。

这是一个实际的例子。假设我要预测美国的GDP。我得到了时间序列,并拟合了模型。该模型为真的概率是多少?

因此,实际上让我们将随机游动模型拟合到GDP序列中: 其中是增长率,而是随机误差。我下面的代码就是这样做的,它还产生了预测(红色)并比较了历史数据(蓝色)。 μ ë

Δlnyt=μ+et
μet

在此处输入图片说明

但是,谁说 GDP是​​一个随机的过程?这是一个趋势过程吗?因此,让我们拟合趋势: 其中是时间趋势的斜率。使用趋势模型的预测显示在同一张图表(黄色)上。 c

lnyt=ct+et
c

现在,您将如何计算我的随机游走模型为真的概率?在MLE内,我们可以在给定数据集的情况下计算漂移的可能性,但这不是概率。其次,更重要的是,在知道该模型也可能是趋势模型的情况下,如何计算这种漂移导致模型随机行走的概率?可以产生这种动态的任何其他数量的模型。μ

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.