正如西安所说,这个问题尚无定论,但我认为仍然有人从贝叶斯的角度考虑最大似然估计,因为一些文献和互联网上都发表了这样的说法:“ 最大似然当先验分布是一致的时,估计是贝叶斯最大值后验估计的特例。
我会说,从贝叶斯角度最大似然估计及其不变性可以是有意义的,但角色和贝叶斯理论估计的意思是频率论者的理论有很大不同。从贝叶斯的角度来看,这种特定的估计量通常不是很明智。这就是为什么。为简单起见,让我考虑一维参数和一一转换。
首先有两句话:
将参数视为存在于通用歧管上的数量可能会很有用,我们可以在该歧管上选择不同的坐标系或测量单位。从这个角度来看,重新参数化只是坐标的改变。例如,无论我们将水的三相点表示为(K),(°C),(°F)还是(a对数刻度)。我们的推论和决定在协调变化方面应该是不变的。当然,某些坐标系可能比其他坐标系更为自然。Ť= 273.16t = 0.01角= 32.01η= 5.61
连续量的概率始终是指这些量的值的间隔(更确切地说是一组),而不是特定值;尽管在少数情况下,例如,我们可以考虑仅包含一个值的集合。黎曼积分形式的概率密度符号告诉我们
(a)我们选择了参数流形上的坐标系
(b)此坐标系使我们可以说等宽度的间隔,
(c)值位于较小间隔的概率约为,其中是一个点在间隔内。p (x )d XX Δ X p(X )
X
Δ Xp (x )Δ XXd X
(或者,我们可以说基本的Lebesgue测度和相等测度的间隔,但是本质是相同的。)d X
因此,类似“ ” 的语句并不意味着的概率大于的概率,而是处于较小间隔内的概率周围的概率大于周围相等宽度的概率。这样的陈述是与坐标有关的。p( X1个)> p(x2)X1个X2XX1个x 2X2
让我们看一下(常客)最大似然性的观点。
从这个观点出发,谈论参数值的概率简直毫无意义。句号 我们想知道什么是真正的参数值,而直观地将数据概率最高的应该离标记不远:
这是最大似然估计量。XX〜dX〜:= arg最高Xp(d|X)。(*)
该估计器选择参数流形上的一个点,因此不依赖于任何坐标系。换句话说:参数流形上的每个点都与一个数字关联:数据的概率;我们正在选择关联编号最高的点。此选择不需要坐标系或基本度量。正是由于这个原因,该估计量是参数化不变的,并且此属性告诉我们这不是概率-如所期望的。如果我们考虑更复杂的参数转换,则这种不变性仍然存在,从这个角度来看,西安提到的轮廓似然性是完全有意义的。d
让我们看一下贝叶斯的观点
从这种观点来看,如果我们不确定连续参数的概率,则以数据和其他证据条件总是有意义。我们将其写为
如开头所述,此概率是指参数流形上的间隔,而不是单个点。dp(x ∣ D )d x ∝ p(D ∣ x )p (x )d X 。(**)
理想情况下,我们应该通过为参数指定完整概率分布来报告不确定性。因此,从贝叶斯角度看,估计量的概念是次要的。p(x ∣ D )d X
当我们出于某些特定目的或原因而必须在参数流形上选择一个点时,即使真正的点是未知的,也会出现此概念。这种选择是决策理论的领域[1],选择的值是贝叶斯理论中“估计量”的正确定义。决策理论说,我们必须首先引入一个效用函数 ,该函数告诉我们在真实点为,通过选择参数流形上的点可以获得多少收益(或者,我们可以悲观地说损失函数)。该函数在每个坐标系中将具有不同的表达式,例如和(P0,P)↦ ģ (P0; P)P0P(x0,X )↦ ģX(x0; X )(y0,ÿ)↦ ģÿ(y0; ÿ); 如果坐标变换为,则两个表达式的关系为 [2]。ÿ= f(x )GX(x0; x )= Gÿ[ f(x0); F(x )]
让我立刻强调一下,当我们说二次函数时,我们隐式选择了一个特定的坐标系,通常是参数的自然坐标系。在另一个坐标系中,效用函数的表达式通常不会是二次函数,但是在参数流形上仍然是相同的效用函数。
与效用函数相关的估计量是在给定数据最大化期望效用的点。在坐标系,其坐标为
此定义与坐标更改无关:在新坐标中,估计量的坐标为。这源于和积分的坐标独立性。P^GdXX^:= arg最高X0∫GX(x0; X )p(x ∣ D )d X 。(***)
ÿ= f(x )ÿ^= f(x^)G
您会看到这种不变性是贝叶斯估计量的内置属性。
现在我们可以问:是否有一个效用函数可导致一个估计器等于最大似然器?由于最大似然估计器是不变的,因此可能存在这样的函数。从这个角度来看,如果最大似然不是不变的,那么从贝叶斯的角度来看就毫无意义了!
在特定坐标系等于狄拉克增量 Dirac delta) 的效用函数似乎可以完成工作[3]。方程得出,如果的先验在坐标是均匀的,我们获得最大似然估计。可替代地,我们可以考虑的效用函数的序列逐渐减小的支持,例如,如果和 别处,对于 [4]。XGX(x0; x )= δ(x0− x )(***)X^= arg最高Xp(x ∣ D )(**)X(*)GX(x0; x )= 1| X0− x | < ϵGX(x0; x )= 0ϵ → 0
因此,是的,如果我们在数学上很慷慨并且接受广义函数,那么从贝叶斯角度来看,最大似然估计器及其不变性是有意义的。但是,贝叶斯观点中的估计量的含义,作用和用途与常人观点完全不同。
我还要补充一点,在文献中似乎对上面定义的效用函数是否具有数学意义[5]有所保留。在任何情况下,这种效用函数的用处都非常有限:正如Jaynes [3]指出的,这意味着“我们只在乎完全正确的机会;如果我们错了,我们不在乎我们有多错误”。
现在考虑语句“最大似然是具有一致先验的最大后验的特例”。重要的是要注意在坐标的一般变化下会发生什么:
1.上面的效用函数假设一个不同的表达式;
2. 由于雅可比行列式,坐标的先验密度不均匀;
3.估计不是最大的后验密度在坐标,这是因为狄拉克δ已经获得一个额外的乘法因子;ÿ= f(x )
Gÿ(y0; ÿ)= δ[ f− 1(y0)− f− 1(y)] &equiv; δ(y0- ÿ)| F′[ f− 1(y0)] |
ÿ
ÿ
4.估计数仍由新的坐标中似然的最大值给出。
这些变化结合在一起,使得参数流形上的估计点仍然相同。ÿ
因此,以上陈述暗含了特殊的坐标系。一个暂定的,更明确的陈述可能是:“最大似然估计器在数值上等于在某些坐标系中具有增量效用函数和统一先验的贝叶斯估计器”。
最后的评论
上面的讨论是非正式的,但可以使用测度理论和Stieltjes集成使其变得精确。
在贝叶斯文献中,我们还可以找到一个更为非正式的估计量概念:这个数字以某种方式“概括”了概率分布,尤其是在不方便或不可能指定其全密度 ; 参见例如墨菲[6]或麦凯[7]。该概念通常与决策理论分离,因此可能依赖于坐标或默认采用特定的坐标系。但是,在估计量的决策理论定义中,不变的东西不能成为估计量。p(x ∣ D )d X
[1]例如,H。Raiffa,R。Schlaifer:应用统计决策理论(Wiley 2000)。
[2] Y. Choquet-Bruhat,C。DeWitt-Morette,M。Dillard-Bleick:分析,流形和物理。第一部分:基础知识(Elsevier,1996年),或任何其他有关微分几何的好书。
[3] ET Jaynes:《概率论:科学的逻辑》(剑桥大学出版社,2003年),第13.10节。
[4] J.-M. Bernardo,AF Smith,贝叶斯理论(Wiley,2000年),第5.1.5节。
[5] IH Jermyn:流形上的不变贝叶斯估计 https://doi.org/10.1214/009053604000001273 ; R. Bassett,J。Deride:最大后验估计量作为Bayes估计量的极限 https://doi.org/10.1007/s10107-018-1241-0。
[6] KP Murphy:《机器学习:概率论》(麻省理工学院出版社,2012年),特别是第一章。5.
[7] DJC MacKay:信息论,推理和学习算法(剑桥大学出版社,2003年),http://www.inference.phy.cam.ac.uk/mackay/itila/。