从贝叶斯角度来看,ML估计量的不变性是荒谬的吗?


9

Casella和Berger表示ML估计量的不变性如下:

在此处输入图片说明

但是,在我看来,他们以完全临时的,荒谬的方式定义的“可能性” :η

在此处输入图片说明

如果我将概率论的基本规则应用于简单情况,我将得到以下结果: 现在应用贝叶斯定理,然后应用和是互斥的,因此我们可以应用求和规则: 大号η | X = p X | θ 2 = η = p X | θ = - η=τθ=θ2pX|=pX p | X

大号η|X=pX|θ2=η=pX|θ=-ηθ=η=:pX|一个
一个
p(x|AB)=p(x)p(AB|x)p(AB)=p(x|AB)=p(x)p(A|x)+p(B|x)p(A)+p(B)

现在将贝叶斯定理再次应用于分子中的项:

p(x)p(A)p(X|一个pX+ppX|pXp一个+p=p一个pX|一个+ppX|p一个+p

如果我们要最大限度地发挥这种WRT到,以获得的最大似然估计,我们必须最大限度地: η p θ- ηη

pθ-ηpX|θ=-η+pθηpX|θ=η

贝叶斯会再次罢工吗?Casella&Berger错了吗?还是我错了?



1
后正式组成部分“如果我申请概率论的基本规则的简单情况wheter ”η=τ(θ)=θ2不改变的问题。塞缪尔·贝尼特的出色回答完全涵盖了这一问题。由于该映射,似然值(以及因此的最大值)不会改变。是的,如果映射不是一对一的,则需要特别注意。但这是一个完全不同的问题,与应用变换时由于概率分布而引起的更改不同。
Sextus Empiricus

4
我了解您的无奈,Programmer2134(&@MartijnWeterings)。但是,请注意您的评论语气。只有遵循我们的友好政策,才能进行富有成效的对话。如果您对进行富有成效的对话不感兴趣,则需要在其他地方发布这些问题。
gung-恢复莫妮卡

3
@gung,您完全正确。我很遗憾以这种语气做出反应。从现在开始,我将停止这样做。非常遗憾。关于对话,我有兴趣追求富有成效的对话,但我认为人们在我提出的几个问题中的反应大多适得其反。不过,下次,我将做出不同的反应。
user56834 '17

3
谢谢。最好假设人们的响应是真诚的。有时候(恕我直言,很少)这里的人不在,但是即使那样,有时也可以哄着他们来。
gung-恢复莫妮卡

Answers:


15

正如西安所说,这个问题尚无定论,但我认为仍然有人从贝叶斯的角度考虑最大似然估计,因为一些文献和互联网上都发表了这样的说法:“ 最大似然当先验分布是一致的时,估计是贝叶斯最大值后验估计的特例

我会说,从贝叶斯角度最大似然估计及其不变性可以是有意义的,但角色和贝叶斯理论估计的意思是频率论者的理论有很大不同。从贝叶斯的角度来看,这种特定的估计量通常不是很明智。这就是为什么。为简单起见,让我考虑一维参数和一一转换。

首先有两句话:

  1. 将参数视为存在于通用歧管上的数量可能会很有用,我们可以在该歧管上选择不同的坐标系或测量单位。从这个角度来看,重新参数化只是坐标的改变。例如,无论我们将水的三相点表示为(K),(°C),(°F)还是(a对数刻度)。我们的推论和决定在协调变化方面应该是不变的。当然,某些坐标系可能比其他坐标系更为自然。Ť=273.16Ť=0.01θ=32.01η=5.61

  2. 连续量的概率始终是指这些量的值的间隔(更确切地说是一组),而不是特定值;尽管在少数情况下,例如,我们可以考虑仅包含一个值的集合。黎曼积分形式的概率密度符号告诉我们 (a)我们选择了参数流形上的坐标系 (b)此坐标系使我们可以说等宽度的间隔, (c)值位于较小间隔的概率约为,其中是一个点在间隔内。pXdXX Δ X pX
    X

    ΔXpXΔXXd X
    (或者,我们可以说基本的Lebesgue测度和相等测度的间隔,但是本质是相同的。)dX

    因此,类似“ ” 的语句并不意味着的概率大于的概率,而是处于较小间隔内的概率周围的概率大于周围相等宽度的概率。这样的陈述是与坐标有关的。pX1个>pX2X1个X2XX1个x 2X2

让我们看一下(常客)最大似然性的观点。
从这个观点出发,谈论参数值的概率简直毫无意义。句号 我们想知道什么是真正的参数值,而直观地将数据概率最高的应该离标记不远: 这是最大似然估计量。XXd

(*)X:=精氨酸最高XpdX

该估计器选择参数流形上的一个,因此不依赖于任何坐标系。换句话说:参数流形上的每个点都与一个数字关联:数据的概率;我们正在选择关联编号最高的点。此选择不需要坐标系或基本度量。正是由于这个原因,该估计量是参数化不变的,并且此属性告诉我们这不是概率-如所期望的。如果我们考虑更复杂的参数转换,则这种不变性仍然存在,从这个角度来看,西安提到的轮廓似然性是完全有意义的。d

让我们看一下贝叶斯的观点
从这种观点来看,如果我们不确定连续参数的概率,则以数据和其他证据条件总是有意义。我们将其写为 如开头所述,此概率是指参数流形上的间隔,而不是单个点。d

(**)pXddXpdXpXdX

理想情况下,我们应该通过为参数指定完整概率分布来报告不确定性。因此,从贝叶斯角度看,估计量的概念是次要的。pXddX

当我们出于某些特定目的或原因而必须在参数流形上选择一个点时,即使真正的点是未知的,也会出现此概念。这种选择是决策理论的领域[1],选择的值是贝叶斯理论中“估计量”的正确定义。决策理论说,我们必须首先引入一个效用函数 ,该函数告诉我们在真实点为,通过选择参数流形上的点可以获得多少收益(或者,我们可以悲观地说损失函数)。该函数在每个坐标系中将具有不同的表达式,例如和P0PGP0;PP0PX0XGXX0;Xÿ0ÿGÿÿ0;ÿ; 如果坐标变换为,则两个表达式的关系为 [2]。ÿ=FXGXX0;X=Gÿ[FX0;FX]

让我立刻强调一下,当我们说二次函数时,我们隐式选择了一个特定的坐标系,通常是参数的自然坐标系。在另一个坐标系中,效用函数的表达式通常不会是二次函数,但是在参数流形上仍然是相同的效用函数。

与效用函数相关的估计量是在给定数据最大化期望效用的点。在坐标系,其坐标为 此定义与坐标更改无关:在新坐标中,估计量的坐标为。这源于和积分的坐标独立性。P^GdX

(***)X^:=精氨酸最高X0GXX0;XpXddX
ÿ=FXÿ^=FX^G

您会看到这种不变性是贝叶斯估计量的内置属性。

现在我们可以问:是否有一个效用函数可导致一个估计器等于最大似然器?由于最大似然估计器是不变的,因此可能存在这样的函数。从这个角度来看,如果最大似然不是不变的,那么从贝叶斯的角度来看就毫无意义了

在特定坐标系等于狄拉克增量 Dirac delta) 的效用函数似乎可以完成工作[3]。方程得出,如果的先验在坐标是均匀的,我们获得最大似然估计。可替代地,我们可以考虑的效用函数的序列逐渐减小的支持,例如,如果和 别处,对于 [4]。XGXX0;X=δX0-X(***)X^=精氨酸最高XpXd(**)X(*)GXX0;X=1个|X0-X|<ϵGXX0;X=0ϵ0

因此,是的,如果我们在数学上很慷慨并且接受广义函数,那么从贝叶斯角度来看,最大似然估计器及其不变性是有意义的。但是,贝叶斯观点中的估计量的含义,作用和用途与常人观点完全不同。

我还要补充一点,在文献中似乎对上面定义的效用函数是否具有数学意义[5]有所保留。在任何情况下,这种效用函数的用处都非常有限:正如Jaynes [3]指出的,这意味着“我们只在乎完全正确的机会;如果我们错了,我们不在乎我们有多错误”。

现在考虑语句“最大似然是具有一致先验的最大后验的特例”。重要的是要注意在坐标的一般变化下会发生什么: 1.上面的效用函数假设一个不同的表达式; 2. 由于雅可比行列式,坐标的先验密度不均匀; 3.估计不是最大的后验密度在坐标,这是因为狄拉克δ已经获得一个额外的乘法因子;ÿ=FX
Gÿÿ0;ÿ=δ[F-1个ÿ0-F-1个ÿ]δÿ0-ÿ|F[F-1个ÿ0]|
ÿ
ÿ
4.估计数仍由新的坐标中似然的最大值给出。 这些变化结合在一起,使得参数流形上的估计点仍然相同。ÿ

因此,以上陈述暗含了特殊的坐标系。一个暂定的,更明确的陈述可能是:“最大似然估计器在数值上等于在某些坐标系中具有增量效用函数和统一先验的贝叶斯估计器”。

最后的评论
上面的讨论是非正式的,但可以使用测度理论和Stieltjes集成使其变得精确。

在贝叶斯文献中,我们还可以找到一个更为非正式的估计量概念:这个数字以某种方式“概括”了概率分布,尤其是在不方便或不可能指定其全密度 ; 参见例如墨菲[6]或麦凯[7]。该概念通常与决策理论分离,因此可能依赖于坐标或默认采用特定的坐标系。但是,在估计量的决策理论定义中,不变的东西不能成为估计量。pXddX

[1]例如,H。Raiffa,R。Schlaifer:应用统计决策理论(Wiley 2000)。
[2] Y. Choquet-Bruhat,C。DeWitt-Morette,M。Dillard-Bleick:分析,流形和物理。第一部分:基础知识(Elsevier,1996年),或任何其他有关微分几何的好书。
[3] ET Jaynes:《概率论:科学的逻辑》(剑桥大学出版社,2003年),第13.10节。
[4] J.-M. Bernardo,AF Smith,贝叶斯理论(Wiley,2000年),第5.1.5节。
[5] IH Jermyn:流形上的不变贝叶斯估计 https://doi.org/10.1214/009053604000001273 ; R. Bassett,J。Deride:最大后验估计量作为Bayes估计量的极限 https://doi.org/10.1007/s10107-018-1241-0
[6] KP Murphy:《机器学习:概率论》(麻省理工学院出版社,2012年),特别是第一章。5.
[7] DJC MacKay:信息论,推理和学习算法(剑桥大学出版社,2003年),http://www.inference.phy.cam.ac.uk/mackay/itila/


1
在上述意义上,存在通过定义函数损失函数(例如,两个密度之间的Kullback-Leibler散度)来定义不变贝叶斯估计量的方法。我在1996年的论文中将这些损失称为固有损失
西安

8

从非贝叶斯观点来看,没有像这样的数量的定义, 因为是固定参数,并且条件表示法没有道理。您建议的替代方法依赖于先验分布,这恰恰是诸如Casella和Berger所建议的那样要避免的方法。您可以检查关键字配置文件可能性的更多条目。(并且那里或那里没有意义。)

pX|θ=-ηθ=η
θrightwrong

这与我在说什么矛盾?我的观点是,从贝叶斯角度看,这是荒谬的。我对Casella和Berger解决方案的问题是,基本上,他们提出了一种全新的可能性临时定义,以达到预期的结论。如果人们对可能性进行一致的定义,即我在上面给出的定义,那么结论将是不同的。当然,Casella和Berger可能希望避免引入先验条件,但是这样做的唯一方法是提出可能性定义的临时更改。
user56834 '17

3
如果您想保持贝叶斯的观点,那么这个问题就没有意义了,因为大多数非贝叶斯的结果都没有道理或与贝叶斯原理“一致”。
西安
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.