“可能性”和“概率”之间有什么区别?


474

维基百科页面声称可能性和概率是不同的概念。

在非技术术语中,“可能性”通常是“概率”的代名词,但在统计使用中,在角度上存在明显的区别:在给定一组参数值的情况下,某些观察到的结果的概率的数字被视为给定观测结果的参数值集的可能性。

有人可以更深入地描述这意味着什么吗?另外,一些关于“概率”和“可能性”如何不同的示例将是很好的。


9
好问题。我也会在其中添加“奇数”和“机会” :)
Neil McGuigan 2010年

5
我认为您应该看看这个问题stats.stackexchange.com/questions/665/…因为可能性是出于统计目的和概率概率。
罗宾吉拉德

3
哇,这些都是非常好的答案。非常感谢!很快,我会选择一个我特别喜欢的答案作为“可接受的”答案(尽管我认为其中的几个都应该得到)。
Douglas S. Stones 2010年

1
还要注意,“似然比”实际上是“概率比”,因为它是观察值的函数。
JohnRos 2011年

Answers:


320

答案取决于您要处理离散变量还是连续随机变量。因此,我将相应地拆分答案。我将假设您需要一些技术细节,而不必用普通英语解释。

离散随机变量

假设您有一个采用离散值的随机过程(例如,掷硬币10次的结果,10分钟内到达商店的顾客数量等)。在这种情况下,我们可以通过对潜在的随机过程做出适当的假设来计算观察到特定结果集的概率(例如,硬币落头的概率为,抛硬币的概率是独立的)。p

用以及将随机过程描述为的参数集表示观察到的结果。因此,当我们谈论概率时,我们要计算。换句话说,给定特定的值,是我们观察到由表示的结果的概率。OθP(O|θ)θP(O|θ)O

但是,当我们对现实生活中的随机过程进行建模时,我们通常不知道。我们仅观察,然后目标是得出的估计值,鉴于观察到的结果,这将是一个合理的选择。我们知道,给定值,观察到的概率为。因此,“自然”的估算过程是选择值,该值将使我们实际观测到的概率最大化。换句话说,我们找到了最大化以下功能的参数值:θOθOθOP(O|θ)θOθ

L(θ|O)=P(O|θ)

L(θ|O)称为似然函数。注意,根据定义,似然函数以观察到的为条件,并且它是未知参数的函数。Oθ

连续随机变量

在连续情况下,情况相似,但有一个重要区别。我们不再谈论在给定的情况下观察到的概率,因为在连续情况下。在不涉及技术的情况下,基本思想如下:OθP(O|θ)=0

将与结果相关的概率密度函数(pdf)表示为:。因此,在连续情况下,我们通过最大化以下函数来估算给定观测结果的:Of(O|θ)θO

L(θ|O)=f(O|θ)

在这种情况下,我们不能从技术上断言我们在最大化与观察到的结果相关的PDF时发现的参数值使观察到的可能性最大化。OO


35
从量度理论的观点来看,离散变量和连续变量之间的区别消失了。
ub

24
@whuber是的,但是使用量度理论的答案并不是每个人都能获得的。

16
@Srikant:同意。该评论是为了保护OP的利益,因为OP是数学家(但可能不是统计学家),以避免被误认为是关于区分的一些基本知识。
ub

6
你可以解释连续密度一样的离散情况下,如果所取代,在这个意义上,如果我们要求(即概率数据包含在一个非整数区域中,答案为(清楚表明我们正在计算直方图的一个无穷细的“ bin”区域)。d ø P - [R Ô ø 'ö ' + d ö '| θ ø ø ' ˚F ø ' | θ d ø ' d ö 'OdOPr(O(O,O+dO)|θ)OOf(O|θ)dOdO
概率

9
我晚了5年,但是我认为这个答案的一个非常关键的跟进是stats.stackexchange.com/questions/31238/…,它着重强调了似然函数是不是关于的pdf文件。)实际上是给定参数值的数据的pdf,但是由于仅是的函数(数据保持恒定),因此的pdf 无关紧要。给定数据。θ 大号θ 大号θ 大号θ θL(θ)θL(θLθL(θ)θ
Shobhit16年

135

几乎每个人都会回答这种问题,我希望所有的回答都是好的。但是您是数学家,道格拉斯,所以让我提供数学答复。

统计模型必须连接两个不同的概念实体:data(它们是某个集合的元素(例如向量空间))和可能的数据行为定量模型。模型通常由有限维流形,带边界的流形或函数空间上的点表示(后者称为“非参数”问题)。xθθ

数据通过函数连接到可能的模型。对于任何给定的,旨在作为的概率(或概率密度)。另一方面,对于任何给定的,可以视为的函数,并且通常假定具有某些良好的性质,例如连续第二次微分。以这种方式查看并调用这些假设的意图是通过将称为“可能性” 来宣布的。xθΛ(x,θ)θΛ(x,θ)xxΛ(x,θ)θΛΛ

这就像微分方程中变量和参数之间的区别:有时我们想研究解(即,我们将变量作为参数),有时我们想研究解如何随参数变化。主要区别在于,在统计学中,我们几乎不需要研究两组参数的同时变化;没有统计对象自然地对应于更改数据和模型参数。这就是为什么您比在类似的数学设置中了解更多有关这种二分法的原因。xθ


6
+1,真是个好答案。用微分方程类推似乎很合适。
mpiktas 2012年

3
作为经济学家,尽管这个答案与我所学到的概念并不像以前那样紧密,但从直觉上讲,它是最有用的信息。非常感谢。
罗布森

1
实际上,这种说法并不是真的“不存在自然地对应于改变数据x和模型参数θ的统计对象”。在线性模型中,它称为“平滑,滤波和预测”,称为卡尔曼滤波器;在非线性模型中,它们具有完整的非线性滤波器,en.wikipedia.org / wiki / Kushner_equation
乌鸦

1
是的,很好的答案!听起来很la脚,通过选择而不是标准符号,它使我更容易看到我们从可以定义为似然或条件概率的联合概率开始。另外,“某些不错的属性”的注释也有所帮助。谢谢! P x θ Λ(x,θ)P(x,θ)
Mike Williamson

2
@whuber是的,我知道不是通常的表示法。这就是为什么它有所帮助的原因!我不再认为它必须具有特定含义,而是遵循逻辑。;-pΛ
Mike Williamson

110

由于已经有一些很好的数学解释,因此我将尽力减少对数学的解释。

正如罗宾•吉兰德(Robin Girand)指出的,概率和可能性之间差异与概率和统计量之间差异密切相关。从某种意义上说,概率和统计自己关心的是彼此相反或相反的问题。

考虑抛硬币。(我的答案将与Wikipedia上的示例1相似。)如果我们知道硬币是公平的(),则典型的概率问题是:连续获得两个正面的概率是多少。答案是。P H H = P H × P H = 0.5 × 0.5 = 0.25p=0.5P(HH)=P(H)×P(H)=0.5×0.5=0.25

一个典型的统计问题是:硬币是否公平?为了回答这个问题,我们需要问:我们的样本在多大程度上支持我们的假设,即?P(H)=P(T)=0.5

要注意的第一点是,问题的方向已经颠倒了。在概率中,我们从假定的参数()开始,并估计给定样本(连续两个头)的概率。在统计中,我们从观察(连续两个头)开始,对我们的参数进行推断()。p = P H = 1 - P T = 1 - qP(head)p=P(H)=1P(T)=1q

Wikipedia上的示例1向我们展示了连续2个头之后的最大似然估计为。但是数据绝不能排除真正的参数值(此刻我们不在乎细节)。实际上,在(硬币两次抛出)之后,只有非常小的值,特别是可以合理地消除。在第三次掷出尾巴之后,我们现在可以消除(即它不是两头硬币)的可能性,但是数据之间的大多数值可以合理地支持p M L E = 1 p H = 0.5 p H p H = 0 n = 2 P H = 1.0 p H P(H)pMLE=1p(H)=0.5p(H)p(H)=0n=2P(H)=1.0。(的精确二项式95%置信区间为0.094至0.992。p(H)

经过100次抛硬币和(例如)70次抛掷,我们现在有一个合理的依据可以怀疑硬币实际上是不公平的。现在的准确95%CI 为0.600至0.787,并且在给定情况下,从100次抛掷中观察到极端结果为70个或更多头(或尾)的概率为0.0000785。p = 0.5p(H)p(H)=0.5

尽管我没有明确使用似然计算,但本示例捕捉了似的概念:似然是度量样本在多大程度上支持参数模型中参数的特定值的度量


3
好答案!特别是最后三段非常有用。您将如何扩展它来描述连续的情况?
Demetris

8
对我来说,最好的答案。我根本不介意数学,但对我而言,数学是我想要的工具(我不喜欢数学本身,而是因为它对我有帮助)。只有有了这个答案,我才知道后者。
Mörre

73

我将从费舍尔(Fisher)提出的似然理论的角度为您提供观点-也是引用的Wikipedia文章中统计定义的基础。

假设您有一个随机变量,它由参数化分布,其中是表征的参数。则的概率为:,且已知。 XF(X;θ)θFX=xP(X=x)=F(x;θ)θ

更常见的是,您有数据而是未知的。给定假设的模型,似然度被定义为观测数据的概率作为的函数:。注意,是已知的,但是是未知的;实际上,定义可能性的动机是确定分布的参数。XθFθL(θ)=P(θ;X=x)Xθ

虽然好像我们只是重新写的概率函数,这样一个关键结果是似然函数并没有服从概率法则(例如,它不绑定到[0,1]区间内)。但是,似然函数与观测数据的概率成正比。

这种可能性的概念实际上导致了另一种思想流派,即“似然论者”(不同于惯常论者和贝叶斯论者),您可以在Google上搜索所有各种历史性辩论。基石是似然性原则,该原则本质上说我们可以直接从似然函数执行推断(贝叶斯或频繁主义者都不接受此推断,因为它不是基于概率的推断)。如今,学校中许多被称为“常客”的东西实际上是常客和可能性思维的结合体。

为了获得更深刻的见识,爱德华兹的《可能性》是一个不错的起点和历史参考。对于现代人来说,我推荐理查德·罗亚尔(Richard Royall)的精彩专着《统计证据:可能性范式》


3
有趣的答案是,我实际上认为“可能性学校”基本上是“不设计样本学校的常客”,而“设计学校”是其余的常客。实际上,我很难说自己是哪所“学校”,因为我对每所学校都有一点了解。我最喜欢“概率作为扩展逻辑”学派(du),但是我没有足够的实践经验来将其应用于实际问题上以教条主义。
概率

5
+1表示“似然函数不服从概率定律(例如,它不受[0,1]区间的约束。)但是,似然函数与所观察到的数据的概率成正比。”
猫猫海象

10
“似然函数不服从概率定律”可以进一步说明,特别是因为它写为θ:L(θ)= P(θ; X = x),即等于概率!
redcalx 2015年

感谢您的回答。您能解决@locster发表的评论吗?
Vivek Subramanian

2
在我看来,不是数学家,这就像宗教数学一样,因为不同的信念导致事件发生的机会价值不同。您是否可以表述它,以便更容易地理解不同的信念是什么以及为什么它们都有意义,而不是简单地认为一个信念是错误的而另一个学校/信念是正确的?(假设有一种正确的方法来计算事件发生的机会)
Zelphir Kaltstahl '16

55

鉴于以上所有出色的技术答案,让我重新回到语言上:概率量化了对预期的期望(结果),似然性量化了信任(在模型中)。

假设有人向我们挑战“可盈利的赌博游戏”。然后,概率将帮助我们计算预期的收益和损失情况(均值,众数,中位数,方差,信息比率,风险价值,赌徒破产等等)。相反,似然性将帮助我们量化我们是否首先信任那些概率。还是我们“闻老鼠”。


顺便说一句-由于上面提到了统计学的信仰-我认为似然比是贝叶斯世界以及常客主义的组成部分:在贝叶斯世界中,贝叶斯公式只是将先验与似然相结合而产生后验。


这个答案为我总结。当我读到可能性不是概率时,我不得不仔细考虑它的含义,但是以下情况发生在我身上。假设我们连续看到四个正面,那么硬币公平的可能性是多少?我们在这里不能真正说出概率,但是“信任”一词似乎很恰当。我们是否可以相信硬币?
燕窝

最初,这可能是可能性的历史预期目的,但是如今,可能性是每一个贝叶斯计算方法,并且众所周知,概率可以融合信念和合理性,这就是创建Dempster-Shafer理论以消除两种解释的歧义的原因。
gaborous

50

假设您有一个硬币,概率为落在正面,概率为在落尾。令表示头,表示尾。定义如下p(1p)x=1x=0f

f(x,p)=px(1p)1x

f(x,2/3)是给定时x的概率,是给定概率。基本上,似然与概率告诉您密度的哪个参数被视为变量p=2/3f(1,p)px=1


很好地补充了上面使用的理论定义!
Frank Meulenaar 2011年

Cknpn(1p)knnkpx(1p)1xkx=n/k

40

如果我有一个公平的硬币(参数值),那么它出现的概率为0.5。如果我掷一枚硬币100次并且朝正面飞了52次,那么它很可能是公平的(可能性的数值可能采取多种形式)。


3
这个和吉普赛人的答案应该放在首位!直觉和清晰度高于干练的数学严谨,更不用说贬义了。
NemanjaRadojković18年

24

P(x|θ)可以从两个角度看:

  • 作为的函数,将视为已知/已观察到的。xθ如果不是一个随机变量,然后被称为(参数化的)概率中给出的模型参数,其有时也写成或。如果是随机变量(如贝叶斯统计中的那样),则是条件概率,定义为。θP(x|θ)xθP(x;θ)Pθ(x)θP(x|θ)P(xθ)/P(θ)
  • 作为的函数,将视为观测值。θx例如,当你试图找到一个特定的分配为最大化,则被称为最大似然的给出的数据,有时写为。因此,术语“似然性”只是简写,指的是某些数据的概率,该概率是由于将不同的值分配给(例如,当遍历图的搜索空间时)θ^θP(x|θ)P(x|θ^)θxL(θ^|x)P(x|θ)xθθ是一个好的解决方案)。因此,它经常用作目标函数,也用作比较两个模型的性能指标,就像贝叶斯模型比较一样

通常,此表达式仍然是其两个参数的函数,因此它只是一个强调问题。


对于第二种情况,我认为人们通常写P(theta | x)。
yuqian 2016年

最初,从直觉上来说,我已经认为它们都是相同的单词,但视角或自然语言表述有所不同,所以我觉得“什么?我一直是对的?!” 但是,如果是这样,为什么区分它们那么重要?英语不是我的母语,我长大后只用一个词看似两个词(或者我是否从来没有遇到过需要区分这些词的问题?)并且从来不知道有什么区别。直到现在,我知道两个英语术语,才开始怀疑我对这些东西的理解。
Zelphir Kaltstahl '16

3
您的答案似乎很宽容,很容易理解。我想知道为什么它的支持这么少。
朱利安

4
请注意,仅当是随机变量时,P(x |)才是条件概率,如果是一个参数,则它只是x被参数化的概率。θθθθ
Mircea Mironenco'5

我认为这是所有问题中最好的答案
亚伦

4

就我而言,最重要的区别是可能性不是的概率。θ

在一个估计问题中,给出X,似然性 描述X的分布而不是。也就是说,是没有意义的,因为似然度不是的pdf ,尽管它确实在某种程度上表征了。P(X|θ)θP(X|θ)dθθθ


1
正如@Lenar Hoyt的回答所指出的,如果theta是一个随机变量(可以是),那么可能性就是一个概率。因此,真正的答案似乎是可能性可能是概率,但有时不是。
Mike Wise

@MikeWise,我认为theta总是可以被视为“随机”变量,而很有可能不是那么“随机” ...
Response777

4

您知道电视连续剧“ num3ers”的飞行员吗?在该节目中,FBI试图找到似乎是随机选择受害者的连环犯罪分子的家园?

FBI的数学顾问和代理人的兄弟以最大似然法解决了该问题。首先,他假设如果犯罪分子居住在位置,则犯罪发生在位置处的“ gugelhupf形” 概率 。(该奶油圆蛋糕的假设是,犯罪既不犯罪在他的近邻,也没有前往远无比的选择自己的下一个随机的受害者。)这个模型描述的概率为不同的给出一个固定的。换句话说,是具有固定参数的的函数p(x|θ)xθxθpθ(x)=p(x|θ)xθ

当然,联邦调查局不知道罪犯的住所,也不希望预测下一个犯罪现场。(他们希望首先找到罪犯!)反之,FBI已经知道犯罪现场并想找到罪犯的住所。xθ

所以FBI特工的辉煌哥哥,试图找到最有可能 所有可能值之中,即最大化为实际观测到的。因此,他现在将视为具有固定参数的的函数。形象地说,他在地图上四处张望,直到它最佳地“适合”了已知的犯罪现场。然后,FBI敲开古格尔胡普夫中心的门。θθp(x|θ)xlx(θ)=p(x|θ)θxxθ^

要强调的透视这种变化,被称为似然的(功能),而是概率的(功能)。两者实际上都是相同的函数但从不同的角度来看,并且和将其角色转换为变量和参数。lx(θ)θ p θX X p X | θ X θθpθ(x)xp(x|θ)xθ

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.