最大可能性或边际可能性哪一个更好,为什么?


13

在执行回归时,如果我们遵循以下定义:部分可能性,轮廓可能性和边际可能性之间的区别是什么?

即,最大似然
找到使L(β,θ| data)最大化的β和θ。

同时,边际似然
我们利用可以识别以β为条件的θ的概率分布这一事实,将θ从似然方程中积分出来。

哪种方法可以最大化最大化?为什么?

Answers:


14

这些每个都会以不同的解释给出不同的结果。第一个找到最可能的对,,而第二个找到(边际)最可能的。想象一下,您的分布如下所示:θ ββθβ

    β=1β=2
θ=10.0 0.2 
θ=20.1 0.2 
θ=30.3 0.2 

然后,最大似然答案为(),而最大边际似然答案为(因为在边缘化,)。θ = 3 β = 2 θ P β = 2 = 0.6β=1θ=3β=2θP(β=2)=0.6

我想说的是,通常来说,边际可能性通常就是您想要的-如果您真的不在乎参数的值,则应该将它们折叠起来。但是可能在实践中,这些方法不会产生非常不同的结果-如果确实如此,则可能表明您的解决方案中存在一些潜在的不稳定性,例如具有,不同组合的多种模式都给出相似的预测。β θθβθ


对于最大/边际似然方法,我确实发现了不同的结果,因此也提出了问题。我要说的是,在我的案例中,这两个结果给出了不同的解释,但可能给出了结果。
Ankit Chiplunkar

5

我现在正在自己解决这个问题。这可能是有用的结果。考虑线性模型

y=Xβ+ϵ,ϵN(0,σ2)

其中和和是感兴趣的参数。联合的可能性是β σ 2yRn,βRp,βσ2

L(β,σ2)=(2πσ2)n/2exp(||yXβ||22σ2)

优化联合似然率

β^=X+y

σ^2=1n||r||2

其中是伪逆和是拟合残差矢量。请注意,在我们拥有而不是熟悉的自由度校正比率。已知该估计器在有限样本情况下存在偏差。X+Xr=yXβ^σ^21/n1/(np)

现在,假设我们没有对和进行优化,而是对了积分,并根据所得的积分似然来估算:βσ2βσ2

σ^2=maxσ2RpL(β,σ2)dβ

使用基本线性代数和高斯积分公式,您可以证明

σ^2=1np||r||2

这具有自由度校正,使其无偏并且通常优于联合ML估计。

从这个结果中,人们可能会问综合可能性是否有内在的优势,但是我不知道有任何可以回答这个问题的一般结果。共识似乎是,集成ML更擅长解决大多数估计问题中的不确定性。特别是,如果您要估算一个依赖于其他参数估算值的数量(甚至是隐含的),则对其他参数进行积分将更好地考虑其不确定性。


1
这是有趣的。但是,我对“将积分”使用了无效的边际分布,以及与任何其他人相比,没有明显的理由使用此(不正确的)边际感到有点困扰。您对这些问题有什么想法?β
ub

1
@whuber,我也与您分享您的疑虑,但仍未提供正确的答案,但请注意,被边缘化的可能性只是后验,上的先验统一不正确,因此我认为这与“客观贝叶斯”方法有关。只要后验是可积的,就不会在意像这样的参数具有不正确的先验分布。ββ
保罗

实际上,根据这篇文章和其中的评论,我认为集成式ML(而不是边际ML)是我们在此所做的正确选择。进行了相应的编辑。
保罗

1
+1我知道我参加这个聚会已经很晚了,但是并没有通过在REML上准确地放置不正确的制服来整合固定效果,因此您实际上只是获得了REML估算值,而这个df校正正是为什么在这里REML更适合较小的样本?
jld

@Chaconne是的,这篇文章的动机是试图理解REML!我(几乎)没有正规的统计学教育,因此得出这对我来说是新的。
保罗

4

这通常不是选择问题。如果我们有兴趣的估计(例如,当是一个模型超参数和是一个潜变量),并没有一个单一的值,取而代之的是分布已知的,我们需要整合。您可以将边际可能性视为不同值通过其概率密度加权的可能性的加权平均值。现在已经消失,使用训练样本作为,您可以优化wrt的边际可能性β θ θ θ θ θ p θ θ d 一个βββθθθθθip(θi)θdataβ

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.