仅给出边际计数的联合分布的最大似然估计


12

令是两个类别变量的联合分布,其中。说从该分布中抽取了样本,但仅给出了边际计数,即: X ÿ X ÿ { 1 ... ķ } Ñ Ĵ = 1 ... ķpx,yX,Yx,y{1,,K}nj=1,,K

Sj=i=1nδ(Xi=l),Tj=i=1nδ(Yi=j),

给定,的最大似然估计是?这是已知的吗?计算上可行吗?除了机器学习之外,还有其他合理的方法来解决这个问题吗?小号ĴŤ Ĵpx,ySj,Tj


2
边距实际上不包含有关联合分布的信息*(实际上这是系结点)。 *或至少几乎没有-显然,边距确实包含至少一些信息,因为内部数量不能超过其出现的边距。您是否考虑到特定的联合分布?为什么使用标签?您是否正在寻求最大熵的解决方案?maximum-entropy
Glen_b-恢复莫妮卡2014年

我对copulas不是很熟悉。它们是否也适用于这种情况?这意味着什么-每个具有相同边距的联合分配都将具有相同的可能性?(我标记了最大熵,因为我认为这可能是相关的。)
RS

我们甚至还没有指定的分布模型,因此我们实际上还无法计算。这里有很多可能性。Copulas存在于有序的分类情况下(如果不是唯一的话),但是我提出这个问题的目的是给出动机,以说明为什么边际通常不是很有用。对于分类计数案例,Fisher将边距视为关于联合的无效信息,因此Fisher-Irwin进行了精确检验。如果你想最大熵,你也许可以得到一个最大熵的解决方案,但我不知道,这将是非常丰富的关于...P(x|θ)
Glen_b -Reinstate莫妮卡

(ctd)...结构。在ME或ML情况下,我认为您首先需要某种模型,无论它是二元多项式,二元超几何还是具有更多结构的模型。请参阅此问题,作者将参考添加到答案中。那可能会有帮助。
Glen_b-恢复莫妮卡2014年

1
我的意思是一般的二元多项式分布。问题是关于给出分布总和的情况,我们从联合分布中看到样本。在这里,我们有样本的总和。我认为该问题在ML案例中得到了很好的定义(解决方案可能不是唯一的,但我不知道)。
RS

Answers:


4

Dobra等人(2006年)在论文“具有固定边际总数的多向列联表中的数据增强”中对此问题进行了研究 。令表示模型的参数,令表示每对对的未观察到的整数表,令为边际计数等于的整数表的集合。那么,观察到边际计数的概率为: ,其中ÑX Ý Ç 小号Ť 小号Ť 小号Ť p 小号Ť | θ = Σ ÑÇ 小号Ť p Ñ | θ p Ñ | θ ñ θ θθn(x,y)C(S,T)(S,T)(S,T)

p(S,T|θ)=nC(S,T)p(n|θ)
p(n|θ)是多项式抽样分布。这定义了ML的似然函数,但是除小问题外,直接评估是不可行的。他们推荐的方法是MCMC,您可以通过从提案分布中抽样并根据Metropolis-Hastings接受率来接受更改来交替更新和。可以使用蒙特卡洛EM 将其调整为在上找到一个近似最大值。 nθθ

另一种方法是使用变分方法来近似的总和。边际约束可以编码为因子图,并且可以使用期望传播对进行推断。 θnθ

要了解为什么这个问题很难解决并且不能接受简单的解决方案,请考虑。以作为行总和,作为列总和,有两个可能的计数表: 因此似然函数是 的此问题的MLE为 ,对应于假设左侧的表格。相比之下,假设独立性所获得的估计为 S=(1,2),T=(2,1)ST

[0120][1011]
p(S,T|θ)=3p12p212+6p11p21p22
p^x,y=[01/32/30]
qx,y=[1/32/3][2/31/3]=[2/91/94/92/9]
,其似然值较小。

不可能获得解析解吗?
Ben Kuhn 2014年

谢谢!尽管它似乎是从贝叶斯的角度来看的,但本文似乎是相关的。对于所有对,实际上是分布本身,即的特定情况如何?会怀疑在这种情况下会有分析解决方案吗?θθ={θx,y}(x,y)
RS

我不会怀疑有解析解决方案。我添加了一个示例来说明这一点。
汤姆·敏卡2014年

谢谢。也许渐近地是真的?然后,对保证金总数的条件与对保证金分布的条件相同(归一化之后),并且每个未观察到的整数表的对数似然率与其熵成正比。那么,也许与AEP有什么关系?
RS

1

正如@Glen_b指出的那样,这没有充分指定。我认为除非可以完全指定可能性,否则不能使用最大可能性。

如果您愿意承担独立性,那么问题就非常简单(顺便说一句,我认为解决方案将是所建议的最大熵解)。如果您不愿意也不能够在问题中强加其他结构,而您仍想对单元格的值进行某种近似,则可以使用Fréchet-Hoeffdingcopula边界。没有附加的假设,我认为您不能再走了。


这样的可能性可能是多项式的。为什么那还不够?
RS

据我了解,可能性是给定数据参数的函数。在这里,您没有每个单元格的值,只有边际值,因此您没有可以计算的参数的单个函数,更不用说最大化了。通常,有许多与边距兼容的像元配置,并且每种配置都有不同的可能性。
F. Tusell 2014年

1
是的,那没关系。参数为,数据为边际。我仍然可以计算给定的边际概率-它是给出边际的单元格配置的所有概率之和。这是我可以最大化的单个功能。pp
RS

1

编辑:此答案基于一个不正确的假设,即给定的边际计数的可能性仅是边际概率和。我还在考虑。px,ypx=ypx,ypy=xpx,y

错误的内容如下:

如评论中所述,为找到“最大似然估计”的问题在于它不是唯一的。例如,考虑具有二进制和边际。两个估计量px,yX,YS1=S2=T1=T2=10

p=(120012),p=(14141414)

在所有情况下都具有相同的边际概率和,因此具有相同的似然性(正如您可以验证的那样,它们都使似然函数最大化)。pxpy


实际上,无论边际是什么(只要每个维度中有两个非零),最大似然解就不是唯一的。我将在二进制情况下证明这一点。令为最大似然解。不失一般性,假设。然后具有相同的边际,因此也是最大似然解。p=(abcd)0<adp=(0b+ac+ada)


如果您还想附加一个最大熵约束,那么您会得到一个唯一的解,正如F. Tussell所说的那样,其中是独立的。您可以看到以下内容:X,Y

分布的熵为 ; 最大化和(等效地,其中和)使用拉格朗日乘数给出了等式:H(p)=x,ypx,ylogpx,yxpx,y=pyypx,y=pxg(p)=0gx(p)=ypx,ypxgy(p)=xpx,ypy

H(p)=kXYλkgk(p)

每个所有梯度均为1,因此按坐标计算得出gk

1logpx,y=λx+λypx,y=e1λxλy

加上原始约束和。当且,您可以验证是否满足,即xpx,y=pyypx,y=pxe1/2λx=pxe1/2λy=py

px,y=pxpy.

对于第一个示例:给出的是边际计数,而不是边际概率。在您描述的情况下,左的的概率是的概率为。对于右边的,它是,即。即使没有独特的解决方案,也并不意味着我们无法指出某些解决方案。最大熵给出了唯一的解决方案,但可能不是最大可能性。p [ [ 10 0 ] [ 0 10 ] ] 2 - 20 p Σ 0 一个10 P - [R [ [ 一个10 - 一个] [ 10 - 一个一个] ] 10 4 -S1=S2=T1=T2=10p[[10,0],[0,10]]220p0a10Pr[[a,10a],[10a,a]]10420
RS

您错误地计算了概率;例如,您忘记了包含二项式系数。但您是对的,即使两个矩阵给出的边际计数的边际分布相同,它们给出的边际计数的联合分布也不同。(赞!)我会考虑更多。
Ben Kuhn 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.