频率和先验


17

罗比McKilliam说,在一个评论这个职位:

应该指出的是,从常客的观点来看,没有理由不能将先验知识整合到模型中。从这个意义上讲,常客视图更简单,您只有一个模型和一些数据。无需将先验信息与模型分开

另外,@ jbowman 在这里说,常客通过成本/罚函数使用正则化,而贝叶斯算法则可以将其作为先验:

频繁的人意识到正则化是好的,并且如今已经非常普遍地使用它-贝叶斯先验可以很容易地解释为正则化。

因此,我的问题是,贝叶斯主义者通常可以将贝叶斯主义者指定为先验者的常识纳入他们的模型吗?以正则化为例,成本/罚函数是否真的集成到了模型中,或者这仅仅是调整解决方案(以及使其唯一)的纯人工方式?


主持人可以通知jbowman和Robby,以便他们进行详细说明吗?还是不合适?
帕特里克

1
帕特里克(Patrick),可以使用“ @”结构通知该网站的任何成员。我用一个很小的编辑就说明了这一点。
ub

它在两个地方都有效:-)。
ub

e,@ whuber,我没有收到通知...也许编辑没有做?现在我很好奇。
jbowman 2012年

1
好的,事实证明我错了:“ @”机制在注释中起作用,而不是问题中起作用。(但是jbowman还是找到了这个问题。)
胡伯

Answers:


8

关于罗比·麦克基利姆(Robby McKilliam)的评论:我认为常客会遇到的困难在于“先验知识”的定义,而不是将先验知识纳入模型的能力。例如,考虑估计给定硬币出现的概率。让我们假设我的先验知识本质上是一个实验,其中那个硬币被翻转了十次,并带有5个头,或者可能是“工厂制造了100万个硬币,而的距离为通过大量实验确定的是β a b pβ(a,b)“。当您确实确实拥有这种类型的先验信息时,每个人都会使用贝叶斯规则(贝叶斯规则仅定义条件概率,而不仅仅是贝叶斯方法),因此在现实生活中,常客和贝叶斯将使用相同的方法,并且通过贝叶斯规则将信息合并到模型中(注意:除非您的样本量足够大,否则您可以肯定先前的信息不会对结果产生影响。)但是,结果的解释是当然,不同。

随着知识的客观性/实验性和主观性的降低,尤其是从哲学的角度来看,这引起了困难。发生这种情况时,常驻者可能根本不会倾向于将这些信息纳入模型中,而贝叶斯主义者仍然有一些或多或少的形式化机制可以这样做,尽管存在主观先验的困难。

关于正则化:考虑似然和先验p θ 。至少从技术上讲,没有什么可以阻止常客使用通过log p θ “正规化”的最大似然估计,如:l(θ;x)p(θ)logp(θ)

θ~=maxθ{logl(θ;x)+logp(θ)}

对于高斯,这等于向高斯平均数的平方惩罚收缩θ,对于其他分布,依此类推。p(θ)θθ~

同样,困难是从哲学的观点出发的。为什么选择一个正则化函数而不是另一个?贝叶斯可以通过评估先验信息来做到这一点-转向基于先验的观点。一名常客将很难(无法?)证明基于这些理由的选择,但取而代之的可能主要是基于正则化函数的属性,该正则化函数适用于他/她的问题类型,这是从联合中获悉的。许多统计学家的工作/经验。OTOH,(务实的)贝叶斯主义者也用先验来做到这一点-如果我已经读过每张关于先验方差的论文,而我有100美元……

其他“想法”:假设可能性函数/贝叶斯观点不受影响,我跳过了选择似然函数的整个问题。我敢肯定,在大多数情况下是这样,但是我可以想象,在特殊情况下,例如出于计算原因,情况确实如此。

θθ


因此,如果我理解的正确,那么从技术上来说,正式人士可能会随心所欲地进行正则化,但是他会为证明这一点感到困难。贝叶斯可能仍然难以量化他的正则化,但是定性地,他有一种一致的方法来合并它。
Patrick

贝叶斯方法也不受限于使用MAP点估计,可以访问完整的后验分布-但是,频繁使用者不必最大化正则对数可能性,也可以使用各种鲁棒估计或方法-moments等(如果有)。 频繁者不必最大化。但这仍然是常客可以使用的方法,如果他们愿意的话,对吗?我的直觉是,出于历史原因(没有计算机!),经常使用的估算器会使用很多聪明的估算器,而不用计算完全似然的函数。
Patrick

5

为了回答这个问题,将频繁性定义为“对数据功能的采样分布的属性感兴趣”很有用。这些函数可以是点估计量,测试统计量的p值,置信区间,内曼·皮尔森(Neyman-Pearson)测试结果,或者基本上是您可以想到的任何其他功能。尽管存在一些指导原则,例如,如果有可用的话就使用足够的统计信息,如果有可用的话就使用枢轴统计信息,等等,尽管存在一些指导原则,但频率论并没有具体说明如何完全构建估计量,p值等。从角度来看,先验信息本身并没有合并到模型中,而是合并了将数据映射到函数输出的函数。

上面提到的“兴趣”在于被认为对推理很重要的属性,例如缺少偏差,渐近一致性,方差,均方误差,平均绝对误差,置信范围(尤其是名义上的与实际的),I类错误控制等等对于从数据中学习具有明显或直观的重要性。可以评估这些属性(通过模拟,如果没有其他内容),而函数是否包含先前的信息。

尤其关注的焦点是无论数据生成过程所依据的实际参数值如何,都可以拥有的属性。例如,在具有已知方差的正态iid模型中,无论平均值如何,数据均值都是无偏的,并且分布均值渐近一致。相反,收缩率估算值(数据平均值的加权平均值和分布平均值的先验猜测)如果分布平均值接近先验猜测,则均方误差较低,否则,均方误差较高,尽管“从数据均值中继承“渐近一致性”。

因此,我可以说可以将先验信息放入推理方法中,但不会纳入模型中。关于Feldman和Cousins,这是对经典的小信号经典统计分析的统一方法,它在物理特性的置信区间内必须非负的情况下很好地说明了这些概念。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.