您实质上是在问一个非常有趣的问题:我应该使用“ MAP贝叶斯”预测最大后验估计还是“真实贝叶斯”进行预测。
假设您知道的真实分布,然后使用MAP估计,假设您要对下100个翻转结果进行100个预测。您应该总是猜想翻转是尾巴,而不是猜测头和尾巴。这就是所谓的“ MAP贝叶斯”,基本上你在做20 80P(H)=0.22080
argmaxθf(x|θ)
不难证明,这样做可以最大程度地减少预测误差(0-1损失)。可以在《统计学习简介》的第53页中找到该证明。
有另一种方法称为“真实贝叶斯”方法。基本上,您并不是在尝试“选择概率最高的结果,而是概率性地考虑所有情况”,因此,如果有人要求您“预测接下来的100次翻转”,则应该暂停他/她,因为当您给出100个二进制结果时,每个结果的概率信息都消失了。相反,您应该问,知道结果之后要做什么。
假设他/她有一些损失函数(例如0-1损失不是必须的,损失函数可以是,如果您错过了头,则需要支付1 美元,但是如果您错过了尾部,则需要支付5 美元,即损失不平衡),那么您应该利用对结果分布的了解,将整个分布中的损失降到最低
∑x∑yp(x,y)L(f(x),y)
,即,将您对损失分配的知识纳入考虑范围,而不是采用“分阶段的方式”,以获得预测并执行下一步。
此外,您对许多可能的结果会产生什么样的结果有很好的直觉。如果结果的数目很大并且概率质量分布广泛,则MAP估计将无法很好地进行。考虑一下您有100个骰子,您知道真正的分布。其中,。现在,您如何使用MAP?您总是会猜到您得到了第一面,因为与其他面相比,它具有最大的概率。但是,您会在的时间内犯错!P (S 2)= P (S 3)= P (S 100)= 0.9 / 99 = 0.009090 S 1 90 %P(S1)=0.1P(S2)=P(S3)=P(S100)=0.9/99=0.009090S190%