这是一个老问题,但是接受的答案实际上并不正确或不完整。用户希望计算12个月数据的标准差,其中每个月均已计算出平均值和标准差。假设每个月的样本数相同,则可以从每个月的数据计算一年中的样本均值和方差。为简单起见,假设我们有两组数据:
X={x1,....xN}
Y={y1,....,yN}
具有已知的样本均值和样本方差值,,和。μxμyσ2xσ2y
现在我们要计算相同的估计值
Z={x1,....,xN,y1,...,yN}。
考虑,计算为:μxσ2x
μx=∑Ni=1xiN
σ2x=∑Ni=1x2iN−μ2x
要估算整个集合的均值和方差,我们需要计算:
μz=∑Ni=1xi+∑Ni=1yi2N=(μx+μy)/2
在接受的答案中给出。对于差异,情况则不同:
σ2z=∑Ni=1x2i+∑Ni=1y2i2N−μ2z
σ2z=12(∑Ni=1x2iN−μ2x+∑Ni=1y2iN−μ2y)+12(μ2x+μ2y)−(μx+μy2)2
σ2z=12(σ2x+σ2y)+(μx−μy2)2
因此,如果您对每个子集都有方差,并且希望对整个集合进行方差,那么如果它们均具有相同的均值,则可以对每个子集的方差求平均值。否则,您需要添加每个子集的均值方差。
假设在上半年,我们每天生产正好1000兆瓦时,而在下半年,我们每天生产2000兆瓦时。那么上半年和下半年能量生产的均值和方差分别为1000和2000,均值和方差均为0。现在,我们可能对两件事感兴趣:
1- 我们要计算全年的能源生产方差:然后,通过对这两个方差求平均值,我们得出零,这是不正确的,因为全年的每日能源量不是恒定的。在这种情况下,我们需要添加每个子集的所有均值的方差。在这种情况下,从数学上讲,随机变量是每天的能源生产。我们具有子集的样本统计信息,并且我们希望在更长的时间内计算样本统计信息。
2- 我们要计算每年的能源生产方差:换句话说,我们对一年到另一年的能源生产变化感兴趣。在这种情况下,平均方差会得出正确的答案,即0,因为每年我们平均平均生产1500兆瓦。在这种情况下,从数学上讲,目标随机变量是每天的平均能源生产量,其中全年进行平均。