似然函数不是pdf的原因是什么?


57

似然函数不是pdf(概率密度函数)的原因是什么?


6
所述似然函数是未知参数的函数(空调上的数据)。因此,它通常不具有区域1(即所有可能值的积分不为1),因此根据定义不是pdf。θθ
MånsT

3
2年前关于MO的相同问题:mathoverflow.net/questions/10971/…–
Douglas Zare

3
有趣的参考,@ Douglas。答案很不令人满意,恕我直言。公认的假设是不正确的(“和都是pdfs”:不是!),而其他人并没有真正解决统计问题。p(X|m)p(m|X)
ub

2
+1呜呜声。令人惊讶的是,尽管mathoverflow网站的数学水平很高,但答案如此之差!
斯特凡洛朗

1
@Stephane:的确如此,但统计学家甚至概率论者在MO上似乎很少,相距甚远,但有一些明显的例外。这个问题是从MO成立之初开始的,当时一般可接受的问题和答案的质量都大不相同。
主教

Answers:


61

我们将从两个定义开始:

  • 概率密度函数(pdf)是集成到一个非负函数。1

  • 可能性定义为观察数据的联合密度随参数的变化。但是,正如@whuber在下面的评论中对Lehmann的引用所指出的那样,似然函数仅是参数的函数,并且数据保持为固定常数。因此,密度是数据的函数这一事实是无关紧要的。

因此,似然函数不是pdf,因为它相对于参数的积分不一定等于1(实际上,如@whuber的另一条评论所指出的那样,可能根本不可积分)。

看到这一点,我们将使用一个简单的示例。假设您从分布中得到一个观测值。那么似然函数是B e r n o u l l iθ xBernoulli(θ)

L(θ)=θx(1θ)1x

是事实。具体来说,如果,则,因此X = 1 大号θ = θ 1 0大号θ d θ = 1个0 θ d θ = 1 / 201L(θ)dθ=1/2x=1L(θ)=θ

01L(θ)dθ=01θ dθ=1/2

当时,适用类似的计算。因此,不能是密度函数。θ x=0L(θ)

可能比表明为什么这种可能性不是概率密度的技术示例更为重要,是指出这种可能性不是参数值正确的概率或类似的东西,而是数据的概率(密度)。给定参数value,这是完全不同的事情。因此,不应期望似然函数的行为像概率密度。


12
+1一个微妙的一点是,即使“ ”出现在积分中也不是似然函数的一部分;它来自无处。在看待这种情况的多种方式中,请考虑重新参数化对似然性没有任何本质的改变,它只是参数的重命名而已,但是会改变积分。例如,如果我们用对数赔率参数化Bernoulli分布,则积分甚至不会收敛。ψ = 日志θ /1 - θ dθψ=log(θ/(1θ))
ub

3
这是一种表达方式:MLE在单调变换下不变,但概率密度不是, QED!这正是费舍尔的论点,我已在对@Michael Chernick的回复的评论中进行了概述。
ub

4
+1以发表评论。一般来说,“ ”甚至没有意义,因为参数空间中甚至没有字段!σdθσ
斯特凡洛朗

1
@PatrickCaldon唯一的连续性约束在cdf上,它要求右连续性。您需要这样做,这样您的概率就不会从已定义变为未定义,并且(可能)再次回到原来的状态,这很奇怪。我不是100%肯定的人,但是我认为只要您拥有cdf,那么就不必。如果可以的话,只需确保RV是连续的即可。Df
Joey 2012年

1
(+1)让我成为第一个祝贺您达到10K代表的人!好的答案;我特别喜欢您提供的示例。干杯。:)
红衣主教

2

可以,但是似然函数是给定参数的观测数据的联合概率密度。这样,可以将其归一化以形成概率密度函数。因此,它本质上就像是pdf。θ


3
因此,您只是指出可能性相对于参数是可积分的(总是真的吗?)。我想您可能暗示了使用平坦先验时似然与后验分布的关系,但是在没有更多解释的情况下,这个答案对我来说仍然很神秘。
2012年

6
一体化要紧。Fisher在1922年发表的《理论统计的数学基础》一文中指出,实际上,通常可以将似然进行“归一化”,以乘以适当的函数积分为从而使。他反对的是专断性:有很多起作用。“……在这种连接中错误地使用了概率一词:概率是频率的比率,而关于这样的值的频率,我们一无所知。” p θ 大号θ p θ ð θ = 1个pL(θ)p(θ)L(θ)p(θ)dθ=1p
ub

1
@Néstor(和Michael)-看来,whuber和我都把这个问题解释为问为什么可能性不是密度函数,而是的函数,θ所以看来我们在回答不同的问题。当然,似然性是观测值的密度函数(给定参数值),这就是它的定义方式。
2012年

2
迈克尔,我认为我们是这样解释的,因为可能性是的函数,因此,如果它是密度,那么它将是的密度。我可以想象用您的方式来解释它,但是直到阅读内斯特的评论后,我才意识到这种可能性。θθθ
2012年

4
我发现歧义是由这个答案造成的,但在问题中不存在。正如@Macro指出的那样,可能性是参数的函数。(例如,“将固定的视为的函数的密度称为似然函数:EL Lehmann,点估计理论,第6.2节。)因此,问题是清楚的在回答,那么,这“可能是联合概率密度”并不明确,但混淆的问题。X θf(x1,θ)f(xn,θ)xθ
whuber

1

我不是统计学家,但我的理解是,尽管似然函数本身不是关于参数的PDF,但贝叶斯规则直接将其与该PDF相关。似然函数P(X | theta)和后验分布f(theta | X)紧密相关;根本不是“完全不同的事情”。


1
欢迎来到我们的网站!您可能会在此主题的其他答案的注释中找到有趣的材料。其中一些指出了为什么除非明确引入其他数学机制(例如参数的Sigma字段),否则不应用贝叶斯规则的原因。
ub

谢谢@whuber。我没有在线程的其他地方注意到任何关于贝叶斯规则的引用,但是我认为注释中有暗示,假设一个人在研究生水平上足够流利地接受了它们(我不是)。您是否会同意将似然函数放在贝叶斯规则的上下文中为OP的问题提供了有用的直觉?
santayana'2

在不假设出现概率分布的情况下,应用贝叶斯规则是不可能的:该线程中几乎所有内容都涉及该分布与作为的函数的数据分布之间的区别。默示地假设存在或可能存在这种分布,这是迈克尔·切尼克(Michael Chernick)的答案中讨论的混乱之源。因此,我同意对这一点进行清晰和认真的讨论可能会有所帮助,但是任何缺乏这一点的风险都可能造成更大的混乱。θθθ
ub

抱歉,乍一看线程似乎只不过是一种误解,但现在我看到了您所引用的相关评论,特别是您引用的Fisher。但是,这是否不能归结为贝叶斯诉频繁主义辩论?难道没有大量的贝叶斯推理从业者会赞成theta的概率分布吗?(您是否同意他们是另一回事...)
santayana 2015年

1
是的,B与F之争正潜伏在这里。当有一个先验的频繁主义者会在有一个基础上采用进行事前分配的基础时,会乐意使用贝叶斯规则,但是来自贝叶斯的零件公司却否认我们必须采用先验。我们可以从这个问题的措辞中得到启示。如果它反而问“为什么将似然函数视为PDF(用于参数)”,则该对话将沿贝叶斯路线进行。但是,通过否定性地询问,OP希望我们从常客的角度研究这种可能性。θ
ub

1

可能性定义为,其中如果f(x;θ)是概率质量函数,则似然度始终小于1,但是如果f(x;θ)是概率密度函数,则由于密度可以大于1,因此似然度可以大于1。L(θ;x1,...,xn)=f(x1,...,xn;θ)

通常,样本会被iid处理,然后:
L(θ;x1,...,xn)=f(x1,...,xn;θ)=jf(xj;θ)

让我们看看它的原始形式:

根据贝叶斯推断,成立,即。请注意,最大似然估计将证据与先验的比率视为一个常数(请参阅此问题的答案),这忽略了先验的信念。可能性与后验具有正相关,后者基于估计的参数。可能是pdf,但却不是,因为只是的一部分,很难处理。 f(x1,...,xn;θ)=f(θ;x1,...,xn)f(x1,...,xn)f(θ)L^=posteriorevidenceprior大号L^LL大号L^

例如,我不知道高斯分布的均值和标准方差,而是想通过使用来自该分布的大量样本进行训练来获得它们。我首先随机初始化均值和标准方差(定义高斯分布),然后取一个样本并拟合估计的分布,然后从估计的分布中获得概率。然后,我继续放入样本并获得许多概率,然后将这些概率相乘并得到一个分数。这种分数是可能性。几乎不可能是某个pdf的概率。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.