令是两个类别变量的联合分布,其中。说从该分布中抽取了样本,但仅给出了边际计数,即: X ,ÿ X ,ÿ ∈ { 1 ,... ,ķ } Ñ Ĵ = 1 ,... ,ķ
给定,的最大似然估计是?这是已知的吗?计算上可行吗?除了机器学习之外,还有其他合理的方法来解决这个问题吗?小号Ĵ,Ť Ĵ
令是两个类别变量的联合分布,其中。说从该分布中抽取了样本,但仅给出了边际计数,即: X ,ÿ X ,ÿ ∈ { 1 ,... ,ķ } Ñ Ĵ = 1 ,... ,ķ
给定,的最大似然估计是?这是已知的吗?计算上可行吗?除了机器学习之外,还有其他合理的方法来解决这个问题吗?小号Ĵ,Ť Ĵ
Answers:
Dobra等人(2006年)在论文“具有固定边际总数的多向列联表中的数据增强”中对此问题进行了研究 。令表示模型的参数,令表示每对对的未观察到的整数表,令为边际计数等于的整数表的集合。那么,观察到边际计数的概率为: ,其中Ñ(X ,Ý )Ç (小号,Ť )(小号,Ť )(小号,Ť )p (小号,Ť | θ )= Σ Ñ ∈ Ç (小号,Ť ) p (Ñ | θ )p (Ñ | θ )ñ θ θ
另一种方法是使用变分方法来近似的总和。边际约束可以编码为因子图,并且可以使用期望传播对进行推断。 θ
要了解为什么这个问题很难解决并且不能接受简单的解决方案,请考虑。以作为行总和,作为列总和,有两个可能的计数表: 因此似然函数是 的此问题的MLE为 ,对应于假设左侧的表格。相比之下,假设独立性所获得的估计为
正如@Glen_b指出的那样,这没有充分指定。我认为除非可以完全指定可能性,否则不能使用最大可能性。
如果您愿意承担独立性,那么问题就非常简单(顺便说一句,我认为解决方案将是所建议的最大熵解)。如果您不愿意也不能够在问题中强加其他结构,而您仍想对单元格的值进行某种近似,则可以使用Fréchet-Hoeffdingcopula边界。没有附加的假设,我认为您不能再走了。
编辑:此答案基于一个不正确的假设,即给定的边际计数的可能性仅是边际概率和。我还在考虑。
如评论中所述,为找到“最大似然估计”的问题在于它不是唯一的。例如,考虑具有二进制和边际。两个估计量
在所有情况下都具有相同的边际概率和,因此具有相同的似然性(正如您可以验证的那样,它们都使似然函数最大化)。
实际上,无论边际是什么(只要每个维度中有两个非零),最大似然解就不是唯一的。我将在二进制情况下证明这一点。令为最大似然解。不失一般性,假设。然后具有相同的边际,因此也是最大似然解。
如果您还想附加一个最大熵约束,那么您会得到一个唯一的解,正如F. Tussell所说的那样,其中是独立的。您可以看到以下内容:
分布的熵为 ; 最大化和(等效地,其中和)使用拉格朗日乘数给出了等式:
每个所有梯度均为1,因此按坐标计算得出
加上原始约束和。当且,您可以验证是否满足,即
maximum-entropy