Answers:
这个问题以各种各样的形式出现。他们的共同点是
如何合并根据我的数据的不相交子集计算出的基于矩的统计信息?
最简单的应用程序涉及已分为两组的数据。您知道小组人数和小组人数。仅就这四个数量而言,数据的整体平均值是多少?
其他应用程序从均值到方差,标准差,协方差矩阵,偏度和多元统计量进行概括。并且可能涉及多个数据子组。注意,这些量中的许多是矩的组合,例如:标准偏差是第一和第二矩(均值和均方)的二次组合的平方根。
所有这些情况都可以通过将各个矩减少为求和来轻松处理,因为求和显然很容易合并:将它们相加。从数学上讲,这可以归结为:您有一批数据被分成大小为不相交的组:。让我们将第个组称为。根据定义,任何一批数据第个矩是的平均值Ĵ 1,Ĵ 2,... ,Ĵ 克(X 1,X 2,... ,X Ĵ 1 ; X Ĵ 1 + 1,... ,X Ĵ 1 + Ĵ 2 ; X Ĵ 1 + Ĵ 2 + 1,我X (我) = (X Ĵ 我 + 1,X Ĵ 我 + 2,... ,X Ĵ 我+ 1)ķ Ý 1,... ,ÿ Ĵ ķ力量
显然,是第个幂的和。因此,参考我们之前将数据分解为个子组的方法,我们可以将幂的和分解为和组,从而获得ķ 克Ñ
通过将表现出在方面整批的阶矩个及其子组的时刻。ķ ķ
在本申请中,协方差矩阵中的条目当然是协方差,其可以用多元第二矩和第一矩表示。 计算的关键部分在于:在每一步中,您将专注于多元数据的两个特定部分;我们称它们为和。您正在查看的数字在表格中ÿ
像以前一样分成组。对于每个组,您都知道乘积平均和:这是多元矩。要组合这些组值,请将它们乘以组大小,将这些结果相加,然后将总数除以。
要应用此方法,您需要提前考虑:如果仅知道协方差和子组大小,则不可能合并,例如,协方差:您还需要知道子组的均值(因为均值以必不可少的方式涉及(在所有协方差公式中),或该方法的代数可简化的东西。您可能还需要注意公式中出现的任何常量;粗心的主要阱是混淆“样本协方差”(其涉及到的产品由分割的总和)具有“人口协方差”(其中的划分是通过)。这不会引入任何新内容。您只需要记住将样本协方差乘以(或将组协方差乘以)以恢复总和,而不是(或)。
哦,是的:关于当前的问题。Wikipedia文章中给出的公式以组均值(第一时刻)和乘积的组和给出。如上文所述,通过将它们相加,然后用除法调整结果以获得协方差,可以将它们组合在一起。最终的除以未显示。