GLM中的对数似然性是否可以保证收敛到全局最大值?


16

我的问题是:

  1. 是否可以保证广义线性模型(GLM)收敛到全局最大值?如果是这样,为什么?
  2. 此外,链接函数对确保凸性有哪些约束?

我对GLM的理解是它们最大化了高度非线性的似然函数。因此,我可以想象有几个局部最大值,您收敛到的参数集取决于优化算法的初始条件。但是,在进行了一些研究之后,我没有找到一个单一的来源来表明存在多个局部最大值。此外,我对优化技术不是很熟悉,但是我知道Newton-Raphson方法和IRLS算法非常容易出现局部最大值。

请尽可能在直观和数学的基础上进行解释!

编辑:dksahuji回答了我的原始问题,但我想在上面添加后续问题[ 2 ]。(“链接函数上有什么约束可确保凸性?”)


我认为必须先有一些限制。声明的来源是什么?
Glen_b-恢复莫妮卡2014年

似乎有几个站点暗示了它,但是我找不到任何直接提及它的内容,因此,我也欢迎对此提出异议!
DankMasterDan 2014年

只要在域中的任何地方都很好地定义了可能性(并且忽略了一些切线的数值问题),我认为是的。在这些条件下,该区域上的每个地方的麻省<0,因此似然性是全局凹的。顺便说一句,该函数在参数中不是“高度非线性” ,这才是重要的。
user603 2014年

@ user603您的来源/证明粗麻布在任何地方都小于0是什么?
DankMasterDan 2014年

给定“良好”链接函数,逻辑,泊松和高斯回归通常是凸的。但是,具有任意链接功能时,它们不是凸的。
2014年

Answers:


11

指数族的定义是:

pX|θ=HX经验值θŤϕX-一种θ

其中是日志分区函数。现在可以证明以下三种情况适用于一维情况(它们可以推广到更高的维度,您可以研究指数族或对数分区的属性):一种θ

  1. d一种dθ=Ë[ϕX]

  2. d2一种dθ2=Ë[ϕ2X]-Ë[ϕX]2=v一种[RϕX

  3. 2一种θ一世θĴ=Ë[ϕ一世XϕĴX]-Ë[ϕ一世X]Ë[ϕĴX]=CØvϕXΔ2一种θ=CØvϕX

以上结果证明了是凸的(因为是正半定)。现在我们来看一下MLE的似然函数: c o vϕ x 一种θCØvϕX

p(D|θ)=[i=1Nh(xi)] exp(θT[i=1Nϕ(xi)]NA(θ))log(p(D|θ))=θT[i=1Nϕ(xi)]NA(θ)=θT[ϕ(D)]NA(θ)

现在在theta中是线性的,而是凹的。因此,存在唯一的全局最大值。θT[ϕ(D)]A(θ

有一个通用的版本称为弯曲指数族,它也将类似。但是大多数证明都是规范形式的。


那么这是否意味着GLM具有唯一的全局最小数量,即选择了哪个链接函数(包括非规范的)?
DankMasterDan 2014年

1
我会尽力回答。是你正在谈论的情况。这在η中仍然是凹面,但在θ中可能不是凹面,因此η应该使得整个对数似然性在θ中是凹面。p(x|θ)=h(x)exp(η(θ)Tϕ(x)A(η(θ)))ηθηθ
dksahuji

请注意,该问题询问的是收敛性,而不仅仅是存在性,但是有一些限制,这也是可行的。
Glen_b-恢复莫妮卡2014年

@Glen_b您能详细说明吗?我不知道任何这样的限制。在凹函数的情况下,可能会限制基于梯度的优化器中的步长以保证收敛。
dksahuji 2014年

1
@Glen_b一般来说,这可能是正确的,但我看不出凹函数无法在较小的可容忍值内收敛到最优值的任何原因。但是我要说的是我没有任何实践经验,我才刚刚开始。:)
dksahuji 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.