我认为核心的误解源于您在问题的上半部分提出的问题。我将这个答案作为MLE和贝叶斯推理范式的对比。有关MLE的非常平易近人的讨论可以在Gary King的“ 统一政治方法论”中找到。Gelman的贝叶斯数据分析可以提供有关贝叶斯方面的详细信息。
在贝叶斯定理中,
,根据我正在阅读的书,称为可能性,但我认为这只是给定时的条件概率,对吗? p(x|y)xy
p (ÿ| x)= p (x | y)p (y)p (x )
p (x | y)Xÿ
可能性是条件概率。对于贝叶斯,该公式描述了给定数据和先验的参数的分布。但是由于此符号不能反映您的意图,因此以后我将使用(,)作为参数,使用作为数据。X p (Ý )θ ÿ XÿXp (ÿ)θÿX
但是,你的更新表明,是从一些分布观察。如果将数据和参数放在贝叶斯规则的适当位置,我们发现这些附加参数对贝叶斯算法没有问题:
p (x | θ ,y )p (θ | x ,y )= p (x ,y | θ )p (θ )Xp (x | θ ,y)
p (θ | x ,y)= p (x ,y| θ)p(θ)p (X ,ÿ)
我相信此表达正是您在更新中所追求的。
最大似然估计试图使最大化,对吗?p (X ,ÿ| θ)
是。MLE假定
即将视为未知数(且不可知)常量。相比之下,贝叶斯推论将当作归一化常数(这样概率求和/积分为单位),而作为关键信息:先验信息。我们可以将视为对优化程序进行惩罚的一种方式,该优化程序会“偏离我们认为最合理的区域”。p (θ ,y )
p (X ,ÿ| θ)∝p(θ | x,y)
p(x)p(θ,y)p(θ,y)p (θ ,y)p (x )p (x )p (θ ,y)p (θ ,y)
如果是这样,我会很困惑,因为是随机变量,对吗?要最大化只是要找出?p (X ,ÿ | θ )θx,y,θp(x,y|θ)θ^
在MLE中,假定是一个未知量但可以推断的固定量,而不是随机变量。贝叶斯推理将视为随机变量。贝叶斯推理看跌概率密度函数中,并得到概率密度函数出来,而不是模型的一点总结,如MLE。也就是说,贝叶斯推论着眼于整个参数值范围以及每个参数值的概率。MLE认为是给定模型的数据的适当摘要。 θθ^θθ^