结合两个协方差矩阵


11

我正在并行计算分布的协方差,需要将分布的结果合并为奇异的高斯分布。我如何结合两者?

如果它们的分布和大小相似,则在两个几乎可行的方法之间进行线性插值。

Wikipedia在底部提供了一个forumla用于组合,但这似乎并不正确。两个相同分布的分布应该具有相同的协方差,但是页面底部的公式会使协方差翻倍。

有没有办法合并两个矩阵?


3
Wikipedia公式回答了您的问题,Matt:您可能没有注意到这是部分公式,之后需要除以样本量。
ub

1
现在,在您的帮助下,我已经弄清了这一点-如果您将其输入答案,我会将其标记为已回答。
马特·肯普

Answers:


12

这个问题以各种各样的形式出现。他们的共同点是

如何合并根据我的数据的不相交子集计算出的基于矩的统计信息?

最简单的应用程序涉及已分为两组的数据。您知道小组人数和小组人数。仅就这四个数量而言,数据的整体平均值是多少?

其他应用程序从均值到方差,标准差,协方差矩阵,偏度和多元统计量进行概括。并且可能涉及多个数据子组。注意,这些量中的许多是矩的组合,例如:标准偏差是第一和第二矩(均值和均方)的二次组合的平方根。

所有这些情况都可以通过将各个矩减少为求和来轻松处理因为求和显然很容易合并:将它们相加。从数学上讲,这可以归结为:您有一批数据被分成大小为不相交的组:。让我们将第个组称为。根据定义,任何一批数据第个是的平均值Ĵ 1Ĵ 2... Ĵ X 1X 2... X Ĵ 1 ; X Ĵ 1 + 1... X Ĵ 1 + Ĵ 2 ; X Ĵ 1 + Ĵ 2 + 1X=X1个X2XñĴ1个Ĵ2ĴGX = X Ĵ + 1X Ĵ + 2... X Ĵ + 1ķ Ý 1... ÿ Ĵ ķX1个X2XĴ1个;XĴ1个+1个XĴ1个+Ĵ2;XĴ1个+Ĵ2+1个;;Xñ一世X一世=XĴ一世+1个XĴ一世+2XĴ一世+1个ķÿ1个ÿĴķ力量

μķÿ=ÿ1个ķ+ÿ2ķ++ÿĴķ/Ĵ

显然,是第个幂的和。因此,参考我们之前将数据分解为个子组的方法,我们可以将幂的和分解为和组,从而获得ķ ÑĴμķÿķGñ

ñμķX=X1个ķ+X2ķ++Xñķ=X1个ķ+X2ķ++XĴ1个ķ++XĴ1个++ĴG-1个+1个ķ+XĴ1个++ĴG-1个+2ķ++Xñķ=Ĵ1个μķX1个+Ĵ2μķX2++ĴGμķXG

通过将表现出在方面整批的阶矩个及其子组的时刻。ķ ķñķķ

在本申请中,协方差矩阵中的条目当然是协方差,其可以用多元第二矩和第一矩表示。 计算的关键部分在于:在每一步中,您将专注于多元数据的两个特定部分;我们称它们为和。您正在查看的数字在表格中ÿXÿ

X1个ÿ1个X2ÿ2Xñÿñ

像以前一样分成组。对于每个组,您都知道乘积平均和:这是多元矩。要组合这些组值,请将它们乘以组大小,将这些结果相加,然后将总数除以。GX一世ÿ一世1个1个μ1个1个ñ

要应用此方法,您需要提前考虑:如果知道协方差和子组大小,则不可能合并,例如,协方差:您还需要知道子组的均值(因为均值以必不可少的方式涉及(在所有协方差公式中),或该方法的代数可简化的东西。您可能还需要注意公式中出现的任何常量;粗心的主要阱是混淆“样本协方差”(其涉及到的产品由分割的总和)具有“人口协方差”(其中的划分是通过)。这不会引入任何新内容。您只需要记住将样本协方差乘以(或将组协方差乘以ñ-1个ññ-1个Ĵ一世-1个)以恢复总和,而不是(或)。ñĴ一世


哦,是的:关于当前的问题。Wikipedia文章中给出的公式以组均值(第一时刻)和乘积的组给出。如上文所述,通过它们相加,然后用除法调整结果以获得协方差,可以它们组合在一起。最终的除以未显示。ñ


我对第k个矩的定义有些困惑。您是否假设零均值数据?
reschu

ķ

可能不好!我混合了“中心”和“原始”时刻。感谢您的澄清!
reschu

我认为倒数第二段中的“了解子组大小的平均值”应改为“了解子组的平均值”?(我不愿意自己仔细研究答案,所以我自己编辑此犹豫)
Juho Kokkala

@Juho你是正确的。谢谢您的注意!
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.