比较最大似然估计(MLE)和贝叶斯定理


12

在贝叶斯定理中,,从我正在阅读的书中,称为可能性,但我认为这只是给定时的条件概率,对吗? px|y

p(y|x)=p(x|y)p(y)p(x)
p(x|y)ÿxy

最大似然估计试图最大化,对不对?如果是这样,我很困惑,因为都是随机变量,对吗?为了最大限度地提高只是找出?还有一个问题,如果这两个随机变量是独立的,则只是,对吗?然后,最大化就是最大化。x y p x | y p(x|y)x,yp(x|y) pX|ÝpXpX|ÝpXy^p(x|y)p(x)p(x|y)p(x)

也许是某些参数的函数,即,而MLE试图找到可以最大化的?或者甚至实际上是模型的参数,而不是随机变量,因此最大化可能性是找到?θ p X | Ý ; θ θ p X | Ý ÿ ÿp(x|y)θp(x|y;θ)θp(x|y)yy^

更新

我是机器学习的新手,这个问题与我从机器学习教程中读到的内容相混淆。在这里,给定观察到的数据集,目标值为,我尝试在该数据集上拟合模型,所以我假设给定,具有一种分布形式由参数化,即,并且我假设这是后验概率,对吗?{ ÿ 1ÿ 2ÿ Ñ } X ý W¯¯ θ p Ý | X ; θ {x1,x2,...,xn}{y1,y2,...,yn}xyWθp(y|x;θ)

现在估计的值,我使用MLE。好的,这是我的问题,我认为可能性是,对吗?最大化可能性意味着我应该选择正确的和?p X | Ý ; θ θ ÿθp(x|y;θ)θy

如果我对可能性的理解是错误的,请向我展示正确的方法。


我认为这是混乱的:贝叶斯定理只是问题开始时给出的条件概率的操纵。该贝叶斯估计利用贝叶斯定理进行参数估计。只有在后者中,最大似然估计(MLE)和参数theta等才起作用。
2013年

@Berkan,好吧,我实际上试图找出给定可能性。x,y,θ
鳄梨

1
我知道了,我建议您看一看这套有关参数估计的介绍性幻灯片
2013年

1
要阅读的另一个重要主题是经验贝叶斯估计器。我们刚刚在班级了解了这些内容:) biostat.jhsph.edu/~fdominic/teaching/bio656/labs/labs09/…–
bdeonovic

Answers:


16

我认为核心的误解源于您在问题的上半部分提出的问题。我将这个答案作为MLE和贝叶斯推理范式的对比。有关MLE的非常平易近人的讨论可以在Gary King的“ 统一政治方法论”中找到。Gelman的贝叶斯数据分析可以提供有关贝叶斯方面的详细信息。

在贝叶斯定理中, ,根据我正在阅读的书,称为可能性,但我认为这只是给定时的条件概率,对吗? px|yxy

p(y|x)=p(x|y)p(y)p(x)
p(x|y)xy

可能性条件概率。对于贝叶斯,该公式描述了给定数据和先验的参数的分布。但是由于此符号不能反映您的意图,因此以后我将使用()作为参数,使用作为数据。X p Ý θ ÿ Xyxp(y)θyx

但是,你的更新表明,是从一些分布观察。如果将数据和参数放在贝叶斯规则的适当位置,我们发现这些附加参数对贝叶斯算法没有问题: p x | θ y p θ | x y = p x y | θ p θ xp(x|θ,y)

p(θ|x,y)=p(x,y|θ)p(θ)p(x,y)

我相信此表达正是您在更新中所追求的。

最大似然估计试图使最大化,对吗?p(x,y|θ)

是。MLE假定 即将视为未知数(且不可知)常量。相比之下,贝叶斯推论将当作归一化常数(这样概率求和/积分为单位),而作为关键信息:先验信息。我们可以将视为对优化程序进行惩罚的一种方式,该优化程序会“偏离我们认为最合理的区域”。p θ y

p(x,y|θ)p(θ|x,y)
pxpθypθyp(θ,y)p(x)p(x)p(θ,y)p(θ,y)

如果是这样,我会很困惑,因为是随机变量,对吗?要最大化只是要找出?p X ÿ | θ θx,y,θp(x,y|θ)θ^

在MLE中,假定是一个未知量但可以推断的固定量,而不是随机变量。贝叶斯推理将视为随机变量。贝叶斯推理看跌概率密度函数,并得到概率密度函数出来,而不是模型的一点总结,如MLE。也就是说,贝叶斯推论着眼于整个参数值范围以及每个参数值的概率。MLE认为是给定模型的数据的适当摘要。 θθ^θθ^


1
感谢您的回答,我更新了我的帖子,请查看我的更新。
鳄梨

此更新从根本上改变了我对该问题的理解。最初,我认为您以为参数,以为数据。现在看来是数据,您对构建描述和之间关系的模型感兴趣。有空的时候我会修改回复。x x y x yyx(x,y)xy
Sycorax说恢复莫妮卡

+1这仍然是一个很好的答案:即使您修改了它以匹配问题中的更改,我希望您在很大程度上保持原样。
Whuber

我已经更新了我的回复,以反映您更新的问题。希望这些详细信息对您有所帮助。我确实建议参考我提到的参考文献。我希望@whuber仍然批准。;-)
Sycorax说恢复莫妮卡(Monica)2013年

非常感谢您进行更新,因此您的意思是尽管我选择了的一种分布形式,但是当我尝试估算时,我应该将都视为观测数据。X ÿ θp(y|x)x,yθ
鳄梨

3

通常,是参数的函数。考虑以下贝叶斯定理的重新表述:yp(x|y)y

p(θ|x)=p(x|θ)p(θ)p(x)

甚至更明确地(关于可能性的概念):

p(θ|x)=L(θ;x)p(θ)p(x)

举一个具体的例子,考虑一下模型

X|θBinomial(θ)θBeta(α,β)

因此,通常不是随机变量,而是,对吧?Xyx
鳄梨

Y通常是X的pdf上的参数。在频繁设置中,y通常是固定值。在贝叶斯设置中,Y本身是一个随机变量(如我给出的示例)。X | Y也可以是您所说的条件概率,我试图为您提供动机,为什么将这个数量称为“可能性”。
大卫·马克思

关于答案中给出的具体示例,您是说实际上是一个随机变量,但是在的分布中,它被当作一个参数?XθX
鳄梨

仅仅因为某物是随机变量并不意味着它就不能成为参数。欢迎来到贝叶斯概率的奇妙世界:)
David Marx

0
  • “ ...称为可能性...”p(x|y)

x yp(x|y)给定x的y的可能性。说出可能性是很重要的。是的,这只是给定的的条件概率。xy

  • “ ...如果这两个随机变量是独立的,则只是吧?然后最大化就是最大化 ……”p x p x | y p x p(x|y)p(x)p(x|y)p(x)

如果它们是独立的,即,则相对于是常数。在这里要小心,因为您没有指定相对于您要最大化的内容-从您之前的内容中可以得出,我假设您相对于是最大化的。p x y yp(x|y)=p(x)p(x)yy

  • ...或者也许,是某些参数的函数,即,MLE试图找到可以最大化的?甚至说y实际上是模型的参数,而不是随机变量,所以最大化可能性是找到?...θ p X | Ý ; θ θ p X | Ý ÿp(x|y)θp(x|y;θ)θp(x|y)y^

引入使其成为一个全新的问题。通常,这里大多数问题的答案似乎是“取决于”。如果需要,我们可以将参数表示为,并相对于它们最大化。同样,如果这是解决当前问题的明智方法,则我们可能会遇到这样的情况:相对于参数最大化。ÿ p X | Ý ; θ θθyp(x|y;θ)θ


我引入的原因是这样的,在我正在阅读的机器学习书中,给定数据集,并且是对应的目标值,因此为了使模型适合该数据集,我可以使用MLE来估算是模型的参数,对吧?X ÿ θθxyθ
鳄梨

0

从STAN参考手册中:

如果先验是统一的,则后验模式对应于参数的最大似然估计(MLE)。如果先验不均匀,则后验模式有时称为最大后验(MAP)估计。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.