维基百科关于可能性的条目似乎模棱两可


26

我有一个关于“条件概率”和“可能性”的简单问题。(我已经在这里调查了这个问题但无济于事。)

它从可能性的Wikipedia 页面开始。他们说:

似然性的一组参数值中的,,给出的结果,等于所给出的那些参数值的那些观察到的结果的概率,也就是Xθx

L(θx)=P(xθ)

大!因此,用英语,我这样读:“在给定数据X = x(左侧)的情况下,参数等于theta的可能性等于在给定参数的情况下数据X等于x的可能性。等于theta”。(粗体是我的重点)。

但是,在同一页面上,不少于3行,然后Wikipedia条目继续说:

假设是一个随机变量,其随机变量 p取决于参数\ theta。然后功能Xpθ

L(θx)=pθ(x)=Pθ(X=x),

被认为是\ theta的函数的函数θ被称为似然函数(\ theta的似然函数θ,给定随机变量 X的结果x)。有时,参数值\ thetaXx的概率表示为P(X = x \ mid \ theta)通常写为P(X = x; \ theta)来强调这\ mathcal {L}(\ theta \ mid x)不同,后者不是条件概率,因为\ theta是参数而不是随机变量。xXxXθP(X=xθ)P(X=x;θ)L(θx)θ

粗体是我的重点)。因此,在第一个引号中,我们从字面上被告知了P(x \ mid \ theta)的条件概率P(xθ),但是此后立即,我们被告知这实际上不是条件概率,实际上应该写为P(X=x;θ)吗?

那么,哪个是?可能性实际上是否表示条件概率为第一个引号?还是在第二个引号中暗示一个简单的概率?

编辑:

根据到目前为止我收到的所有有用和有见地的答案,我总结了我的问题-到目前为止,我的理解是:

  • 英语来说,我们说:“可能性是参数的函数,给定观察到的数据。” 在数学中,我们将其写为:。L(Θ=θX=x)
  • 可能性不是概率。
  • 可能性不是概率分布。
  • 可能性不是概率质量。
  • 但是,可能性用英语来表示:“概率分布的乘积(连续的情况)或概率质量的乘积(离散的情况),其中,并由参数化。” 在数学中,我们将其写为:(连续的情况,其中是PDF),并且(离散情况,其中是概率质量)。这里的要点是,这里一点都没有Θ = θ 大号Θ = θ | X = X = ˚F X = X ; Θ = θ ˚F 大号Θ = θ | X = X = P X = X ; Θ = θ PX=xΘ=θL(Θ=θX=x)=f(X=x;Θ=θ)f
    L(Θ=θX=x)=P(X=x;Θ=θ)P 是完全有条件的概率。
  • 在贝叶斯定理中,我们有:。口语上,我们被告知“是一个可能性”,但这不是正确的,因为可能是一个实际随机变量。因此,我们可以正确地说的是,该项与可能性完全“相似”。(?)[对此我不确定。] PX=X|Θ=θΘPX=X|Θ=θP(Θ=θX=x)=P(X=xΘ=θ) P(Θ=θ)P(X=x)P(X=xΘ=θ)ΘP(X=xΘ=θ)

编辑二:

基于@amoebas的回答,我已发表了他的最后评论。我认为这很清楚,并且我认为这消除了我的主要争论。(对图片的评论)。

在此处输入图片说明

编辑三:

我现在也将@amoebas评论扩展到贝叶斯案例:

在此处输入图片说明


您已经有两个不错的答案,但还可以查看stats.stackexchange.com/q/112451/35989
提姆

@Tim优秀链接,谢谢!不幸的是,对于我对可能性的具体问题以及它可能产生的条件概率(?),我仍然不清楚。关于这一点,我仍然不清楚。:-/
Creatron '16

2
“鉴于”并不总是意味着条件概率。有时,该短语仅是试图指示要在计算中或概念上固定哪些符号的尝试。
whuber

2
确实有人确实将这种印刷约定与分号一起使用。约定有很多很多:下标,上标等。您经常必须从上下文或他们对所做工作的文本描述中找出某人的意思。
ub

4
当是随机变量(即,认为是由随机变量产生的值)时,似然定义中的任何内容都不会改变。 仍然有可能。 从逻辑上讲,这与说蓝色蝴蝶仍然是蝴蝶没有什么不同。从技术上讲,它引起有关联合分布的问题 显然,在确定具有条件概率的可能性之前,必须明确定义此联合分布并享受某些“规则性条件”。Θ Θ XθΘΘx
ub

Answers:


18

我认为这在很大程度上是不必要的。

给定的条件概率为两个随机变量和定义,取值和。但是我们也可以谈论概率的给出其中不是一个随机变量,而是一个参数。X ý X ý X ý P X | θ X θ θP(xy)P(X=xY=y)xyXYxyP(xθ)xθθ

注意,在两种情况下,都可以使用相同的术语“给定”和相同的符号。无需发明不同的符号。此外,所谓的“参数”和所谓的“随机变量”可以取决于您的哲学,但是数学并不会改变。P()

维基百科的第一句话指出,根据定义。这里假设是一个参数。第二个引号表示,是没有一个条件概率。这意味着给定并不是的条件概率;确实不能,因为这里假设为参数。θ 大号θ | X θ X θL(θx)=P(xθ)θL(θx)θxθ

在贝叶斯定理的上下文既和是随机变量。但是,我们仍然可以调用 “可能性”(中),现在它也是一个真正的条件概率(的)。此术语是贝叶斯统计中的标准。没有人说这与可能性“相似”。人们简单地称之为可能性。abPbaab

P(ab)=P(ba)P(a)P(b),
abP(ba)ab

注1:在最后一段中,显然是的条件概率。作为一个可能性可以看出的一个函数 ; 但它不是一个概率分布(或条件概率)!它在上的积分不一定等于。(而它在上的积分就是。)b La b a a a 1 bP(ba)bL(ab)aaa1b

注2:有时,如@MichaelLew所强调的那样,似然可以定义为任意比例常数(因为大多数时候人们对似然很感兴趣)。这可能有用,但并非总是如此,也不是必需的。


另请参见“可能性”和“概率”之间的区别是什么?特别是@whuber的答案。

我也完全同意@Tim在该线程中的回答(+1)。


1
所以可能性,实际上,等于,条件概率(根据最后一段),是否正确?这就是我要平方的。例如,在第一个答案中,我们有:“ 首先,似然度通常不能等于给定参数值的数据的概率,因为似然度仅定义为比例常数。费舍尔明确指出首先是形式化的可能性(Fisher,1922年)。可能性-可能性-是否等于条件概率?
Creatron'7

@Creatron我在回答中添加了两个注释。他们澄清了吗?
变形虫说莫妮卡(

1
关于注1:由于条件概率分布,并且由于不能是概率分布,所以在我看来,我们可以用最“正确”的方式为在这种情况下,似然是:,而不是。(我知道在优化中这没有什么区别,但是我试图确定这种可能性的正确性)。我的理解正确吗?感谢您的耐心等待。L a | b L a | bP(b|a) L(a|b) L a | b = P b | a L(a|b)P(b|a)L(a|b)=P(b|a)
Creatron '16

1
@Creatron我认为您在这里混淆了几个不同的问题。我假设您正在谈论贝叶斯定理设置(这是我的注1所指),其中和都是随机事件。好的,所以是给定的的条件概率分布。但是应该被看作是一个功能,而不是!而且这还不是概率分布的,因为它总和不等于一个。这与问题或比例无关(这是我的注释2)。我认为我们可以写成。b P b | a b aabP(b|a)baa b a L a | b = P b | a L(a|b)abaL(a|b)=P(b|a)
变形虫说恢复莫妮卡

1
变形虫,谢谢!您一直在帮助我解开这些概念,非常感谢!!:)我只是将图“扩展”到贝叶斯案例,并感谢您的反馈,以确保我也正确理解了这一点。我也接受了你的回答。再一次,盛大的亲切!
Creatron '16

10

您已经得到了两个不错的答案,但是由于您仍然不清楚,让我提供一个答案。可能性定义为

L(θ|X)=P(X|θ)=ifθ(xi)

因此,给定数据,我们就有一些参数值可能性。它等于由参数化的的概率质量(离散情况)或密度(连续情况)函数的乘积。给定数据的可能性是参数的函数。请注意,是我们正在优化的参数,而不是随机变量,因此它没有分配任何概率。这就是为什么维基百科指出使用条件概率表示法可能会模棱两可的原因,因为我们没有以任何随机变量作为条件。另一方面,在贝叶斯设置中,X ˚F X θ θ θθ XfXθθθ 一个随机变量并且确实具有分布,因此我们可以像处理任何其他随机变量一样使用它,并且可以使用贝叶斯定理来计算后验概率。贝叶斯似然仍然是似然,因为它告诉我们给定参数的数据的似然性,唯一的区别是该参数被视为随机变量。

如果您了解编程,则可以将似然函数视为编程中的重载函数。有些编程语言允许您使用不同的参数类型进行调用时具有不同的功能。如果您这样想,那么默认情况下,如果以某个参数值作为参数并返回给定该参数的数据的可能性。另一方面,您可以在贝叶斯设置中使用此类函数,其中参数是随机变量,这会导致基本相同的输出,但是由于我们以随机变量为条件,因此可以理解为条件概率。在这两种情况下,该功能的工作原理相同,只是您对它的使用和理解有所不同。

// likelihood "as" overloaded function
Default Likelihood(Numeric theta, Data X) {
    return f(X, theta); // returns likelihood, not probability
}

Bayesian Likelihood(RandomVariable theta, Data X) {
    return f(X, theta); // since theta is r.v., the output can be
                        // understood as conditional probability
}

此外,您宁愿找不到将贝叶斯定理写为的贝叶斯定理

P(θ|X)L(θ|X)P(θ)

...这将非常令人困惑。首先,在等式两边都具有,并且没有太多意义。其次,我们有后验概率来知道给定数据概率(即,您在似然论框架中知道的东西,但是当不是随机变量时,您不会知道)。第三,由于是随机变量,因此我们将其写为条件概率。在θ θ θ 大号θ|XθθθL-符号通常保留给似然性设置。两种方法中的惯例均使用“似然”这个名称来表示相似的事物:在给定模型和参数的情况下,观察此类数据的概率如何变化。


谢谢蒂姆,这对我的理解非常有帮助。我已经用这一新知识重新巩固了我的问题(请参见“编辑”下的内容)。我相信我现在写的所有内容都是真实的。唯一的保留是贝叶斯规则上列表的最后一点。如果您可以看一下,我将不胜感激。再次感谢,祝您投票愉快!
Creatron

1
@Creatron我在句子中添加了一个句子,注释了您的最后一个项目符号,希望现在已经清楚了-否则请说出来。
蒂姆

(1/2)您对重载运算符的编辑对我有很大帮助。在这种情况下,在我看来,我们可以这样说:1)在“数学纯正”(即Fisher可能含义的历史情况下)的情况下,不是随机变量,而是PDF的参数(或参数的函数?),则似然性等于的概率。当然,似然函数不是概率分布,但与的概率相等。它是否正确?P X = X ; θ P X = X ; θ θP(X=x;θ)P(X=x;θ)
Creatron'7

(2/2)但是,在第二种情况下,(2),当上下文是贝叶斯设置时,则在这种情况下,我们的参数是rv,因此在这种情况下,可能性IS实际上是条件概率分布但是,P(b | a)写为L(a | b)。因此,在第一种“默认”情况下,可能性绝对不是概率分布,(但等于概率值),但是在第二种情况下,可能性实际上是概率分布,而概率分布是有条件的概率,记为P(b | a)。它是否正确?
Creatron'7

2
谢谢蒂姆,即使我接受了@amoeba的回答,您的帖子也确实帮助我理解了这个多样而深刻的概念,尤其是您对重载函数的类比。再次感谢你!
Creatron '16

7

可能性的常见描述中有几个方面不够精确或以引起混淆的方式忽略了细节。Wikipedia条目就是一个很好的例子。

首先,似然性通常不能等于给定参数值的数据的概率,因为似然度最多只能定义成比例常数。费舍尔在第一次正式确定可能性时就明确指出了这一点(Fisher,1922年)。这样做的原因似乎是对似然函数的积分(或总和)没有任何限制,并且在给定任何参数值的情况下,统计模型内观察数据的概率受以下因素的强烈影响:数据值的精度和参数值指定的粒度。x

第二,考虑似然函数比个体似然更有用。从似然函数的曲线图可以明显看出,似然函数是模型参数值的函数。这样的图形还使我们很容易看到,根据模型设置为那些参数值时模型对数据的预测程度,似然性可以对参数的各个值进行排序。在我看来,对似然函数的探索使数据和参数值的作用比对原始问题中给出的各种公式的理解更为清楚。

使用似然函数内的几对似然比作为观测数据为模型值提供的相对支持程度(在模型内)解决了未知比例常数的问题,因为这些常数在比率中抵消了。重要的是要注意,这些常数不一定会以来自不同似然函数(即来自不同统计模型)的似然比抵消。

最后,明确统计模型的作用非常有用,因为可能性由统计模型以及数据确定。如果选择不同的模型,则将获得不同的似然函数,并且可以获得不同的未知比例常数。

因此,为了回答最初的问题,可能性不是任何可能性。它们不服从Kolmogorov的概率公理,并且在推理的统计支持中扮演的角色与各种类型的概率所扮演的角色不同。

  1. Fisher(1922)基于统计学的数学基础 http://rsta.royalsocietypublishing.org/content/222/594-604/309

1
帖子的第一行总结了我对该主题的不满。无论如何,先生们都会根据您的帖子提出一些问题:1)贝叶斯公式通常写为,其中(被告知)是“可能性”,而是“先验”。如果可能性不是概率,那么该陈述是否错误?2)我提出该问题的动机是在推导最大似然估计器的背景下,该估计器不可避免地将似然性与(看似)具体(条件)概率联系起来。给定这两个例子,该如何调和呢?谢谢。 Pb|aPaP(a|b)=P(b|a)P(a)P(b)P(b|a)P(a)
Creatron '16

@Creatron 1.不,声明不一定是错误的。似然函数是证据进入计算的方式,并将其与概率分布结合可得出概率分布。在那种情况下,未知的比例常数不是问题,因为在似然函数和先验概率分布的乘积之后可以任意缩放,以使其具有正确的单位积分(或总和)。
迈克尔·卢

2.在找到最大似然估计的情况下,使用条件概率还是似然都没有区别,因为它们将在整个参数值范围内成比例。
Michael Lew

1
然后我们可以说在技​​术上是错误的,而 在技​​术上和形式上都是正确的吗?这就是全部吗?L θ | x P x | θ L(θ|x)=P(x|θ)L(θ|x)P(x|θ)
Creatron'7

谢谢Micheal Lew,您的帖子对我对这个问题的理解确实有所帮助,非常感谢。
Creatron '16

7

维基百科应该说不是在某些指定集合中的条件概率,也不是的概率密度。确实,如果参数空间中有无限多个值,则可以使 例如通过使而不考虑的值,并且如果参数空间上有一些标准量度,则可以用相同的方式使 本文要强调的一个基本观点是,θ θ θ Σ θ大号θ = L(θ)θθθ

θL(θ)=,
θ d θ Θ ∫ Θ大号θ L(θ)=1θdθΘ大号θ P X | θ  和NOT  X P X | θ
ΘL(θ)dθ=.
L是函数
θP(xθ) and NOT xP(xθ).

2
+1,感谢您修改我的答案;我忘了\mid存在。
变形虫说莫妮卡(Monica)恢复

@amoeba:很乐意提供帮助。
Michael Hardy

3

“我的理解是:“在给定数据X = x(左侧)的情况下,参数等于theta的可能性等于参数X等于x的概率(假定参数等于theta”。(粗体是我的重点)。”

在参数为theta的情况下,这是一组观测值的概率。这可能令人困惑,因为他们写了,然后写了。Lθ | x P(x|θ)L(θ|x)

这种解释(某种程度上是客观的)意味着不是随机变量。例如,它可以是在贝叶斯设置中具有某些先验分布的随机变量。但是,要点是,我们假设是一个具体值,然后对观察的可能性做出陈述。这是因为在我们感兴趣的任何系统中,仅有一个真实值。θ = θ θθθ=θθ


好的,因此我基于此得出以下结论:i)维基百科上的第一张图片是错误的,因为(至少就我所知),始终被视为条件概率,以及他们希望获得的条件可以说,这不是-或从来没有-“给定theta的数据概率”,而是“由theta进行参数化的数据的概率”。它是否正确?谢谢。(总结,似乎。P(a|b)L(θ|x)=P(X=x;θ)
Creatron

但是,这是有问题的,因为在贝叶斯公式中,,我们被告知实际上是可能性,(实际上是条件概率)。然而这一点与我们刚才说的,也违背了什么维基在图像2.说P(a|b)=P(b|a) P(a)P(b)P(b|a)
Creatron

L(θ|x):=P(x|θ)。该是向左的的强调的是,我们认为的一个函数的参数,我们希望优化。所以没有矛盾。θxLLθ
Alex R.

:=的右侧是条件概率吗?P x | θ L(θ|x)P(x|θ)
Creatron

现在,这对我来说更有意义。感谢您的初步帮助,@ Alex。
Creatron '16
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.