第一个例子
典型的情况是在自然语言处理的上下文中进行标记。有关详细说明,请参见此处。这个想法基本上是为了能够确定句子中单词的词法类别(是名词,形容词等)。基本思想是,您有一个语言模型,该模型由隐藏的马尔可夫模型(HMM)组成。在此模型中,隐藏状态对应于词汇类别,而观察到的状态对应于实际单词。
各个图形模型具有以下形式:
其中是句子中单词的序列,是序列标签。X = (X 1 ,。。。,X Ñ)y =(y1 ,。。。,ÿñ)X =(X1,。。。, Xñ)
一旦经过训练,目标就是找到与给定输入句子相对应的正确的词汇类别序列。这被公式化为寻找语言模型最兼容/最可能生成的标签序列,即
F(y)= a r g m a xX ∈ÿp (x)p (y | x)
第二个例子
实际上,一个更好的例子是回归。不仅因为它更容易理解,而且因为它使最大似然(ML)和最大后验(MAP)之间的差异清晰可见。
基本上,问题在于将样本给出的某些函数与一组基函数的线性组合
其中是基函数,而是权重。通常假设样本被高斯噪声破坏。因此,如果我们假设目标函数可以精确地写成这样的线性组合,那么,Ť
ÿ(x ; w)= ∑一世w一世ϕ一世(x)
ϕ (x)w
t = y(x ; w)+ ϵ
因此,我们有
这个问题的ML解等效于最小化,p (t | w)= N(t | y(x ; w))
Ë(w)= 12∑ñ(吨ñ− wŤφ (Xñ))2
得出众所周知的最小二乘误差解。现在,ML对噪声敏感,在某些情况下不稳定。MAP允许您通过对权重施加约束来选择更好的解决方案。例如,典型的例子是岭回归,您需要权重具有尽可能小的范数,
Ë(w)= 12∑ñ(吨ñ− wŤφ (Xñ))2+ λ Σķw2ķ
这等效于对权重设置高斯先验。总体而言,估计权重为ñ(w | 0,λ− 1我)
w = a r g m i nwp (w ; λ )p (t | w ; ϕ )
注意,在MAP中,权重不是ML中的参数,而是随机变量。尽管如此,ML和MAP都是点估计器(它们返回最佳的权重集,而不是最佳权重的分布)。