如何“求和”标准偏差?


68

我有一个值的每月平均值,以及与该平均值相对应的标准偏差。我现在将年度平均值计算为每月平均值的总和,如何表示总平均值的标准偏差?

例如,考虑风电场的输出:

Month        MWh     StdDev
January      927     333 
February     1234    250
March        1032    301
April        876     204
May          865     165
June         750     263
July         780     280
August       690     98
September    730     76
October      821     240
November     803     178
December     850     250

可以说,风电场平均每年生产10,358 MWh,但是与该数字相对应的标准偏差是多少?


3
在现已删除的答复之后的讨论中发现,此问题可能存在歧义:您是要查找月平均值的标准差,还是要恢复构造这些平均值的所有原始值的标准差?该答复还正确指出,如果需要后者,则将需要每个月平均值中涉及的值数。
whuber

1
另一个删除回复注释指出,奇怪的是计算平均的总和:想必你的意思,你是平均的月平均值。但是,如果您要估计所有原始数据的平均值,那么这样的过程通常不是一个好方法:需要加权平均值。当然,除非您清楚“合计平均值”是什么以及打算代表什么,否则不可能对您关于“合计平均值的SD”的问题给出很好的答案。请为我们澄清一下。
whuber

@whuber我添加了一个示例来说明。数学我相信平均值的总和等于每月平均次数12
klonq

2
是的,klonq,这是一个非常合理的要求。但是,这些回复是由其所有者而不是社区删除的。为了保持其价值,我在这里尝试传达(我的看法)这些答复及其评论中提出的关键思想。顺便说一句,您最近的编辑非常有帮助:人们喜欢看示例数据。
ub

1
欢迎来到@Hayden网站。这不是OP的问题的答案。请仅使用“您的答案”字段提供答案。如果您有后续问题,请点击[ASK QUESTION]顶部的并在此处提问,我们会为您提供适当的帮助。由于您是新手,因此您可能想参加我们的游览,其中包含新用户的信息。
gung

Answers:


66

简短的答案:您平均差异;然后您可以取平方根以获得平均标准偏差


Month          MWh  StdDev  Variance
==========   =====  ======  ========
January        927    333     110889
February      1234    250      62500
March         1032    301      90601
April          876    204      41616
May            865    165      27225
June           750    263      69169
July           780    280      78400
August         690     98       9604
September      730     76       5776
October        821    240      57600
November       803    178      31684
December       850    250      62500
===========  =====  =======  =======
Total        10358            647564
÷12            863    232      53964

然后平均标准差sqrt(53,964) = 232


正态分布随机变量的总和

如果和是正态分布的独立随机变量(因此也可以是正态分布),那么它们的总和也是正态分布的XY

...两个独立的正态分布随机变量的和是正态的,其均值是两个均值的总和,其方差是两个方差的总和

从Wolfram Alpha的正态总和分布来看:

令人惊讶的是,两个分别具有均值和方差和正态分布独立变量和和的分布是另一种正态分布。XY(μX,σX2)(μY,σY2)

PX+Y(u)=12π(σX2+σY2)e[u(μX+μY)]2/[2(σX2+σY2)]

这意味着

μX+Y=μX+μY

和方差

σX+Y2=σX2+σY2

为您的数据:

  • 和: 10,358 MWh
  • 方差: 647,564
  • 标准偏差: 804.71 ( sqrt(647564) )

在此处输入图片说明

因此,回答您的问题:

  • 如何“求和”标准偏差
  • 您对它们进行二次求和:

    s = sqrt(s1^2 + s2^2 + ... + s12^2)
    

从概念上讲,您对方差求和,然后取平方根以获得标准偏差。


因为我很好奇,我想知道,平均每月的平均功耗,它的标准偏差。通过归纳,我们需要12个正态分布,其中:

  • 求和 10,358
  • 总和为 647,564

那将是以下项的12个平均每月分布:

  • 的平均值 10,358/12 = 863.16
  • 的方差 647,564/12 = 53,963.6
  • 的标准偏差 sqrt(53963.6) = 232.3

在此处输入图片说明

我们可以通过将它们的每月平均分布相加12次来查看其平均分布,以查看它们是否等于年度分布:

  • 是指:863.16*12 = 10358 = 10,358正确
  • 方差:53963.6*12 = 647564 = 647,564正确

注意:我会将其留给具有深奥的Latex数学知识的人转换为我的公式图像,并formula code转换为stackexchange格式的公式。

编辑:我把短的,移动到重点,顶部回答。因为我需要做到这一点今天再次,但要仔细检查,我平均差异


3
这一切似乎都假设月份是不相关的-您是否在任何地方都明确了这一假设?另外,为什么我们需要引入正态分布?如果我们只是在谈论方差,那么这似乎是不必要的-例如,在这里
Macro

1
@Marco因为我认为图片更好,它使所有内容都更容易理解。
伊恩·博伊德

2
@Marco另外,我相信这个问题始于(现已失效)stats.stackexchange网站。与更简单,图形化,不太严格的处理相比,公式更难获得。
伊恩·博伊德

2
我怀疑这是正确的。想象两个数据集,每个数据集仅一个测量值。每组的方差为0,但如果数据点不同,则两个测量值的方组的方差都大于0。
Njol

1
@Njol,我认为这就是我们假设所有变量都具有正态分布的原因。我们可以在这里做到这一点,因为我们谈论的是物理测量。在您的示例中,两个变量都不是正态分布的。
tworec

11

这是一个老问题,但是接受的答案实际上并不正确或不完整。用户希望计算12个月数据的标准差,其中每个月均已计算出平均值和标准差。假设每个月的样本数相同,则可以从每个月的数据计算一年中的样本均值和方差。为简单起见,假设我们有两组数据:

X={x1,....xN}

Y={y1,....,yN}

具有已知的样本均值和样本方差值,,和。μxμyσx2σy2

现在我们要计算相同的估计值

Z={x1,....,xN,y1,...,yN}

考虑,计算为:μxσx2

μx=i=1NxiN

σx2=i=1Nxi2Nμx2

要估算整个集合的均值和方差,我们需要计算:

μz=i=1Nxi+i=1Nyi2N=(μx+μy)/2 在接受的答案中给出。对于差异,情况则不同:

σz2=i=1Nxi2+i=1Nyi22Nμz2

σz2=12(i=1Nxi2Nμx2+i=1Nyi2Nμy2)+12(μx2+μy2)(μx+μy2)2

σz2=12(σx2+σy2)+(μxμy2)2

因此,如果您对每个子集都有方差,并且希望对整个集合进行方差,那么如果它们均具有相同的均值,则可以对每个子集的方差求平均值。否则,您需要添加每个子集的均值方差。

假设在上半年,我们每天生产正好1000兆瓦时,而在下半年,我们每天生产2000兆瓦时。那么上半年和下半年能量生产的均值和方差分别为1000和2000,均值和方差均为0。现在,我们可能对两件事感兴趣:

1- 我们要计算全年的能源生产方差:然后,通过对这两个方差求平均值,我们得出零,这是不正确的,因为全年的每日能源量不是恒定的。在这种情况下,我们需要添加每个子集的所有均值的方差。在这种情况下,从数学上讲,随机变量是每天的能源生产。我们具有子集的样本统计信息,并且我们希望在更长的时间内计算样本统计信息。

2- 我们要计算每年的能源生产方差:换句话说,我们对一年到另一年的能源生产变化感兴趣。在这种情况下,平均方差会得出正确的答案,即0,因为每年我们平均平均生产1500兆瓦。在这种情况下,从数学上讲,目标随机变量是每天的平均能源生产量,其中全年进行平均。


1

我相信您可能真正感兴趣的是标准误差而不是标准偏差。

平均值(SEM)的标准误差是样本平均值对总体平均值的估计的标准偏差,这将使您能够衡量年度MWh估算的水平。

它非常容易计算:如果您使用样本来获取每月的MWh平均值和标准偏差,则只需按照@IanBoyd的建议计算标准偏差,并通过样本的总大小对其进行归一化。也就是说,s = n

s=s12+s22++s12212×n

1

我想再次强调部分已接受答案的不正确性。问题的措词导致混乱。

这个问题有每个月的平均值和标准差,但尚不清楚使用哪种子集。是整个农场的1台风力发电机的平均值还是整个农场的每日平均值?如果是每个月的日平均值,则不能将月平均值相加以获得年平均值,因为它们的分母不同。如果是单位平均值,则问题应说明

可以说,风电场每个涡轮机平均每年产生10,358 MWh,...

代替

可以说,风电场平均每年生产10,358 MWh,...

此外,标准偏差或方差是与集合自身平均值的比较。它不包含有关整个平均值的任何信息。

方差示例

图像不一定很正确,但可以传达一般的想法。如图所示,假设1个风电场的输出。如您所见,“局部”方差与“全局”方差无关,无论您如何相加或相乘。您无法使用2个半年的方差来预测一年的方差。因此,在可接受的答案中,虽然总和计算正确,但将12除以得到月度数就没有任何意义。。在这三个部分中,第一部分和最后一部分是错误的,第二部分是正确的。

同样,这是非常错误的应用程序,请不要遵循它,否则会惹上麻烦。只是针对整个事物进行计算,使用每个单位的年/月总输出作为数据点,具体取决于您想要的是年数还是月度数,这应该是正确的答案。您可能想要这样的东西。这是我随机生成的数字。如果您有数据,则单元格O2中的结果应该是您的答案。

在此处输入图片说明


非常感谢您的图片,它帮助我理解了为什么所接受的答案不完整甚至可能是错误的。您解释得很好,谢谢!

这表明了投票的危险。投票的人就是不知道答案的人。与编码相反,投票的人是使代码起作用的人,投票越多,答案越好。对于统计/数学,更多的投票仅意味着它更具吸引力。
谭勒
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.