贝叶斯和常驻点估计量在什么条件下重合?


17

对于平坦的先验,ML(频率-最大似然)和MAP(贝叶斯-最大后验)估计量是重合的。

但是,更笼统地说,我说的是作为某些损失函数的优化子而得出的点估计量。即

X

x^(.)=argminE(L(Xx^(y))|y) (Bayesian) 
x^(.)=argminE(L(xx^(Y))|x)(Frequentist)

其中E是期望算子,L是损失函数(最小为零),x^(y)是估计器,给定参数x的数据y,并且随机变量用大写字母表示。yx

是否有人知道Lxy的pdf y,施加的线性度和/或无偏度的任何条件,这些条件在哪些条件下估计会重合?

编辑

正如评论中指出的那样,要求公正性(例如无偏见)才能使频率论问题有意义。固定先验也可能是普遍现象。

除了某些答案提供的一般性讨论之外,问题实际上还在于提供实际示例。我认为重要的一个来自线性回归:

  • OLS,x^=(DD)1Dy是BLUE(高斯-马尔可夫定理),也就是说,它使线性无偏估计量中的频繁MSE最小化。
  • 如果(X,Y)为高斯且先验为平坦,则x^=(DD)1Dy“后验”均值,它使任何凸损失函数的贝叶斯均值损失最小。

在这里,D似乎分别被称为常客/贝叶斯术语中的数据/设计矩阵。


我假设您希望答案假设为单位优先?否则,当然不可能在合理的一般情况下合理地估计这些估计值是相同的。
user56834

2
概括地说,要回答这个问题不是一个简单的问题,但它目前是一个非常热门的研究主题,例如,请参见朱迪思·卢梭在该领域的工作:ceremade.dauphine.fr/~rousseau/publi.html
K

@JeremiasK,也许您可​​以在答案中解释一下?
user56834 '17

1
@ Programmer2134如果我对材料足够满意,我会的,但是我没有。我知道他们所做的是派生CLT的贝叶斯对应物,具有某些“后验集中率”,可以告诉您,随着样本量的增加,参数后验集中在参数空间中某个点的速度有多快,然后基本上就结束了找到贝叶斯估计量的频繁型一致性保证。
耶利米斯K

Answers:


7

这个问题很有趣,但是除非经常性估计量的概念精确化,否则它就毫无希望。绝对不是问题中的那个 因为答案的最小化是为所有的如Programmer2134的答案所指出。根本问题是,在没有引入补充约束或估计类的情况下,就没有单一的频繁估计器。没有这些,所有贝叶斯估计量也都是常客估计量。

x^(.)=argminE(L(x,x^(Y))|x)
x^(y)=xy

正如评论中指出的那样,无偏性可能是这样的约束,在这种情况下,贝叶斯估计量被排除在外。但是,这种常客观念与其他常客观念相冲突,例如

  1. 可接受性,因为詹姆斯·斯坦因现象表明,无偏估计量可能是不可接受的(取决于损失函数和问题的范围);
  2. 重新参数化下的不变性,因为无偏不保持在变换之下。

另外,无偏仅适用于有限的估计问题类别。这样,我的意思是某个参数或变换的无偏估计量的大部分时间都是空的。ħ θ θh(θ)

说到可采性,另一个常客观念,存在一些设置,对于这些设置,唯一可允许的估计量是贝叶斯估计量,反之亦然。这种类型的设置与亚伯拉罕·沃尔德(Abraham Wald)在1950年代建立的完整类定理有关。(这同样适用于最佳不变估计量,它们是在适当的正确Haar度量下的贝叶斯。)


1
是否存在其他规范估计器类别的规范方法,以使最小化问题得到很好的定义且不会退化(除了要求无偏性之外),而这更接近贝叶斯方法?
user56834 '17

3

通常,除非您使用退化的单位优先级,否则频繁估计者和贝叶斯估计者并不重合。主要原因是:频繁的估算器通常会努力做到公正。例如,常客经常尝试找到最小方差无偏估计量(http://en.wikipedia.org/wiki/Minimum-variance_unbiased_estimator)。同时,所有非简并的贝叶斯估计量都是有偏的(在偏见的偏见中)。参见例如http://www.stat.washington.edu/~hoff/courses/581/LectureNotes/bayes.pdf,定理5。

总结一下:大多数流行的频繁估计者都力求公正,而所有贝叶斯估计者都有偏见。因此,贝叶斯估计和常客估计很少重合。


5
我怀疑这些断言的正确性,因为“大多数流行的常客性估计量”都是ML,而且它们往往会有偏差(取决于参数设置)。此外,好的常客对损失和可接纳性深表关注。该理论的关键部分认识到,可接受的过程来自贝叶斯过程,至少从广义上讲,频度论的核心在于贝叶斯估计量!如果您可以更清楚地了解“经常”,“最多”和“很少”,并以证据为依据,那么我可能会说服您。
whuber

@whuber好点-我的回答可能有点简单。真正的常客倾向于使用有偏见的程序(例如L1或L2惩罚回归),甚至可能使用正式的贝叶斯程序。但是,我认为无偏估计量是大多数频度分析的起点。例如,Lehmann&Casella的“点估计理论”的第一章(关于频繁估计的标准教科书之一)都是关于无偏的。
Stefan Wager 2013年

5
好吧,好的(+1)。但我发现您的最后一个论点很有趣:毕竟,一本书必须从某个地方开始,通常选择该起点是因为其简单性和可访问性,而不是出于其实际重要性。基于同样的理由,您可以声称大多数现代数学主要与逻辑和集合论有关,因为它们经常构成许多数学教科书的第一章!对统计实践的更好反映可能是Lehmann&Casella的后半部分-看看那里讨论的内容:-)。
whuber

“除非您使用退化的先验单位”。好吧,这是一个值得考虑的特殊情况,不是吗?
user56834 '17

此外,他的问题是,在一定条件下它们在理论上是否会重合,而不是在实践中使用的估计量是否重合。
user56834 '17

3

这不是一个完整的答案,但在这两个的外观非常相似,它们在某种程度上根本不同:贝叶斯一个最小化对于表达为单一值(即,值Xÿ ,取决于y)。argminx^(y)y

但是,惯常论者必须在不知道x的情况下,针对可能取的每个值,将单个函数的损失函数最小化。这是因为功能的最小˚F X X= Ë 大号X - XŸ | X 取决于X,即使我们在不知道将其最小化X。(注意,如果我们只会减少˚F X Xxxf(x,x^)=E(L(xx^(Y))|x)xxf(x,x^)WRT X,我们只会看到的最小化值X = X)的频率论问题,因此不确定的。我不确定是否有可能使它定义明确。x^x^=x


1
好点。我认为您对常客问题是正确的。使其状态良好的方法是限制估计量的类别。来自Lehmann&Casella的观点:“到目前为止,我们一直在关注寻找使每个θ值的风险R(θ,δ)最小的估计量。只有通过限制公正性要求考虑的估计量类别,才有可能作为无偏或等方差。”
Patrick

1

这个问题可能没有答案。

一种替代方法可能是要求找到针对当前任何问题有效地确定两个估计的方法。贝叶斯方法非常接近这个理想。但是,即使可以使用最小极大值方法来确定频繁点估计值,但通常来说,最小极大值方法的应用仍然很困难,并且在实践中倾向于不使用。

另一种选择是重新解释问题,即贝叶斯估计和频繁估计者提供“一致”结果的条件,并尝试确定有效计算这些估计器的方法。这里,“一致”是指贝叶斯估计和频繁估计是从一个共同的理论得出的,并且两个估计都使用相同的最优性准则。这与试图反对贝叶斯统计和常识统计非常不同,并且可能使上述问题变得多余。一种可能的方法是,针对常客案例和贝叶斯案例,都针对最小化给定规模损失的决策集,即

Schafer,Chad M和Philip B Stark。“构建最佳预期大小的置信区域。” 美国统计协会杂志104.487(2009):1080-1089。

事实证明,这对于常客和贝叶斯情况都是可能的,方法是通过包含具有大的逐点互信息的偏好观察和参数。决策集将不同,因为所提出的问题是不同的:

  • 与真实参数无关,可以限制做出错误决定的风险(常客观点)
  • 给出一些观察结果,限制将错误参数包含到决策集中的风险(贝叶斯视图)

但是,如果使用扁平先验,则集合将在很大程度上重叠并且在某些情况下变得相同。对该思想进行了详细讨论,并在其中进行了有效的实现。

基督徒的巴特尔斯(Bartels)(2015年):始终如一的信心和可信的地区。无花果。 https://doi.org/10.6084/m9.figshare.1528163

对于内容丰富的先验,决策集的偏差更大(众所周知,在上面的问题和答案中已指出)。然而,在一致的框架内,人们会获得常客测验,以保证所需的常客测验覆盖率,但要考虑到先验知识。

基督教徒巴特尔斯(Bartels,Christian)(2017):在常识测试中使用先验知识。无花果。 https://doi.org/10.6084/m9.figshare.4819597

所提出的方法仍然缺乏边缘化的有效实施。


您能否在问题中更具体地阐述它们何时“一致”?
user56834 '17

@ Programmer2134。谢谢,试图在答案中弄清楚。
user36160
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.