超参数化模型的Fisher信息矩阵行列式


10

考虑一个带有参数(成功概率)的伯努利随机变量。似然函数和Fisher信息(矩阵)为:X{0,1}θ1×1

L1(θ;X)=p(X|θ)=θX(1θ)1XI1(θ)=detI1(θ)=1θ(1θ)

现在考虑带有两个参数的“过度参数化”版本:成功概率θ1和失败概率θ0。(请注意θ1+θ0=1,并且此约束表示参数之一是多余的。)在这种情况下,似然函数和Fisher信息矩阵(FIM)为:

L2(θ1,θ0;X)=p(X|θ1,θ0)=θ1Xθ01XI2(θ1,θ0)=(1θ1001θ0)detI2(θ)=1θ1θ0=1θ1(1θ1)

请注意,这两个FIM的决定因素相同。此外,此属性扩展到分类模型的更一般情况(即,两个以上的状态)。它似乎还扩展到对数线性模型,其中参数的各个子集被约束为零。在这种情况下,额外的“冗余”参数对应于对数分区函数,并且可以基于较大FIM 的Schur补码来显示两个FIM行列式的等价性。(实际上,对于对数线性模型,较小的FIM只是较大FIM的Schur补。)

有人可以解释此属性是否扩展到较大的参数模型集(例如,扩展到所有指数族),从而允许选择基于此类“扩展”参数集来导出FIM行列式吗?即,假设具有参数的任何给定统计模型都位于嵌入在维空间中的维流形上。现在,如果我们扩展参数集以包含一个以上的维度(该维度完全受其他维度约束),并基于这些参数计算FIM ,我们将始终获得与原始维度相同的行列式(独立的)参数?另外,这两个FIM有什么关系?nn(n+1)(n+1)n

我问这个问题的原因是带有额外参数的 FIM通常看起来更简单。我首先想到的是,这通常不起作用。FIM涉及计算每个参数的对数似然的偏导数。这些偏导数假设,当所讨论的参数更改时,所有其他参数保持不变,一旦涉及到额外的(受约束的)参数,则这是不正确的。在这种情况下,在我看来,偏导数不再有效,因为我们不能假设其他参数是常数。但是,我还没有找到证据证明这实际上是一个问题。(如果偏导数在具有相关参数的情况下有问题,则为全导数(n+1)×(n+1)需要代替吗?我还没有看到使用总导数计算FIM的示例,但是也许这就是解决方案...)

我在网上可以找到的唯一一个基于这样的“扩展”参数集计算FIM 的示例如下:这些注释包含一个分类分布的示例,照常计算所需的偏导数(即,每个参数都是独立的) ,即使参数之间存在约束)。


1
好问题!我认为伯努利随机变量的两参数规范是一个不幸的例子,因为没有约束,不再局限于密度。例如,您能否重现对弯曲指数族的观察?p(X|θ1,θ0)=θ1Xθ01X
2015年

@Khashaa我假设约束适用于两参数情况(您提到的情况),因此似然函数仍将是有效密度。同样,是的,我可以重现此观察结果,例如对于对数线性模型,其中各种参数的子集被约束为零;在这种情况下,“冗余”参数对应于日志分区功能。θ1+θ2=1
Tyler Streeter

1
如何?N(μ,μ2)
2015年

Answers:


4

对于普通,信息矩阵为 对于弯曲的法线因此,您关于行列式相等的观察不是普遍的,但这不是全部。XN(μ,σ2)

I1=(1σ20012σ4)
XN(μ,μ2)
I2=3μ2.

通常,如果是重新参数化下的信息矩阵那么不难发现原始参数的信息矩阵为,其中是变换的雅可比行列式。Ig

g(θ)=(g1(θ),...,gk(θ)),
I(θ)=GIg(g(θ))G
Gg=g(θ)

对于Bernoulli示例和。因此,雅可比行列式为,因此 (θ0,θ1)=(p,1p)g(p)=(p,1p)(1,1)

I(p)=(11)(1p0011p)(11)=1p(1p)

对于弯曲的普通示例,

I2=(12μ)(1μ20012μ4)(12μ)=3μ2.

我认为现在您可以轻松确定行列式。

评论后的跟进

如果我理解正确,那么只要您以有意义的方式扩展参数,FIM就是有效的:新参数化下的可能性应该是有效的密度。因此,我称伯努利为不幸的例子。

我认为您提供的链接在分类变量的FIM推导中存在严重缺陷,因为我们有和。负Hessian的期望给出,但不是得分向量的协方差。如果忽略约束,则信息矩阵相等性将不成立。 E(xi2)=θi(1θi)θiE(xixj)=θiθj0diag{1/θi}


感谢您提到雅可比变换方法以及简单明了的示例。您(或其他任何人)是否可以对仍然困扰我的以下问题发表评论:在将参数集扩展为一个维度时(如我们在此处所做的那样),我们在参数之间引入了约束,以便任何偏导数(如FIM)应该是无效的,因为现在,当我们改变一个参数时,其他参数不再是常数。鉴于偏导数由于额外的约束而无效,因此FIM对扩展的参数集甚至有效吗?
Tyler Streeter

@TylerStreeter我已经更新了我的答案以解决您的问题。
Khashaa 2015年

3

看来结果对于参数之间的特定关系成立。

对于下面的结果,我们并没有主张完全通用,而是坚持“一对二参数”的情况。表示的隐式方程式,表示两个参数之间必须保持的关系。然后是“正确的扩展”,“两个参数”的对数似然性(不是OP计算的-我们将到达那里)g(θ0,θ1)=0

Le=L(θ0,θ1)+λg(θ0,θ1)
等于真实似然,因为,(是一个乘数),我们可以在区分时将这两个参数视为独立的。Lg(θ0,θ1)=0λ

使用下标表示参数的导数(一个下标一阶导数,两个下标二阶导数),正确的扩展对数似然性的Hessian的行列式为

(1)DH(Le)=[L00+λg00][L11+λg11][L01+λg01]2=DH(L)

OP在做什么呢?

他认为错误的似然 “忽略”了两个参数之间的关系,并且没有考虑约束。然后,他继续进行区分并获得L(θ0,θ1)g(θ0,θ1)

(2)DH(L)=L00L11[L01]2

显然,通常不等于。(2)(1)

但是如果 ,那么g00=g11=g00=0

(1)DH(Le)=L00L11[L01]2=DH(L)=DH(L)

因此,如果实际参数与冗余参数之间的关系使得链接它们的隐式函数的第二部分导数都为零,则从根本上错误的方法将最终“正确”。

对于伯努利案,我们确实有

g(θ0,θ1)=θ0+θ11g00=g11=g01=0

附录
为了回答@Khashaa问题并在此处显示机制,我们考虑了用冗余参数指定的可能性,而且考虑了将冗余参数与真实参数链接的约束。我们使用对数似然的方法是使它们最大化-因此这里有一个约束最大化的情况。假设样本大小为:n

maxLn(θ0,θ1)=lnθ0i=1nxi+(ni=1nxi)lnθ1,s.t.θ1=1θ0

这个问题有一个Langrangean(我在上面非正式地称为“正确的扩展可能性”),

Le=lnθ0i=1nxi+(ni=1nxi)lnθ1+λ(θ11+θ0)

最大的一阶条件是

i=1nxiθ0+λ=0,ni=1nxiθ1+λ0=0

为此我们获得关系

i=1nxiθ0=ni=1nxiθ1θ1i=1nxi=(ni=1nxi)θ0

使用以上条件有效的约束,我们获得θ1=1θ0

(1θ0)i=1nxi=(ni=1nxi)θ0

i=1nxi=nθ0θ^0=1ni=1nxi

尽我们所能。

此外,由于约束在所有参数中都是线性的,因此其二阶导数将为零。这反映在一个事实上:在拉格朗日的一阶导数中,乘数 “独立的”,当我们采用拉格朗日的二阶导数时,它将被消除。这反过来将导致我们得到一个Hessian,其行列式将等于最初的一参数对数似然的(一维)二阶导数,同时还施加了约束条件(OP就是这样做的)。然后,在两种情况下均取期望值的负数,则不会更改此数学等价关系,我们得出的关系是“一维Fisher信息=二维Fisher信息的行列式”。现在λ假设约束在所有参数中都是线性的,则OP无需在要最大化的函数中引入乘数即可获得相同的结果(在二阶导数级),因为在二阶导数级,运算符的存在/效果在这种情况下约束消失了。

所有这些都与微积分有关,与统计概念无关。


我似乎无法听从您的逻辑。您能否解释为什么将类似拉格朗日的视为“正确扩展”,“两参数”对数似然?而且,黑森州人对我来说完全是个谜。您是否正在计算观察到的信息矩阵?Le
2015年

@Khashaa公认的术语是,“ Hessian”是多元函数的二阶导数的矩阵。
Alecos Papadopoulos

如果此处的拒绝投票者发布了答案(因为OP的特定示例确实存在)并且需要解释,将很有帮助。
Alecos Papadopoulos'1

抱歉,如果我的问题不清楚。我的问题是有关如何将Hessian与信息矩阵联系起来的,因为我没有看到期望值,结果似乎像一个观察到的信息矩阵。此外,您能解释为什么是正确的对数似然性吗?我猜您正在使用某种原则上的方法来评估受限可能性,但我不知道它是如何工作的。Le
2015年

@Khashaa我使用OP的示例添加了一个博览会。
Alecos Papadopoulos
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.