加权方差,再一次


17

无偏加权方差已在此处其他地方得到解决,但似乎仍然令人惊讶。对于第一个链接以及Wikipedia文章中提供的公式似乎已达成共识。这也看起来像R,Mathematica和GSL(而不是MATLAB)使用的公式。但是,Wikipedia文章还包含以下几行,对于加权方差实现而言,这看起来很不错:

例如,如果从同一分布中得出值{2,2,4,5,5,5},那么我们可以将此集合视为未加权样本,也可以将其视为加权样本{2,4, 5}和相应的权重{2,1,3},我们应该得到相同的结果。

我的计算得出原始值的方差为2.1667,加权方差为2.9545。我真的应该期望它们是一样的吗?为什么或者为什么不?


6
这个问题不是真正的实现,而是背后的理论
confusedCoder

Answers:


15

是的,您应该期望两个示例(未加权与加权)都能得到相同的结果。

我已经实现了Wikipedia文章中的两种算法。

这个作品:

如果所有xi均来自同一分布,并且整数权重wi表示样本中的出现频率,则加权总体方差的无偏估计量如下:

s2 =1V11i=1Nwi(xiμ)2,

但是,这个(使用分数权重)对我不起作用:

如果每个xi是从方差为1/wi的高斯分布中得出的,则加权总体方差的无偏估计量为:

s2 =V1V12V2i=1Nwi(xiμ)2

我仍在调查第二个方程无法按预期工作的原因。

/ EDIT:找到了第二个方程式不起作用的原因:只有当您具有归一化的权重或方差(“可靠性”)权重时,才可以使用第二个方程式,并且它不是无偏的,因为如果您没有使用“重复”权重(计数观察值的次数,因此应该在数学运算中重复进行计数),您将无法计算观察值的总数,因此无法使用校正因子。

因此,这解释了使用加权和非加权方差的结果差异:您的计算有偏差。

因此,如果您想拥有一个无偏加权方差,请仅使用“重复”权重并使用我上面发布的第一个等式。如果这不可能,那么您将无能为力。

如果您需要更多信息,我也更新了Wikipedia的文章:http : //en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_variance

以及有关无偏加权协方差(由于极化标识而实际上是相同的方差)的链接文章: 加权无偏样本协方差的正确方程式


经过大量阅读和思考后,我仍然没有直观的含义或“可靠性权重”一词的示例。您能详细说明一下吗?
彼得

@Peter可靠性权重是归一化的权重,例如,范围在0和1之间或在-1和1之间。它们表示一个频率(例如,0.1表示该样本与所有其他样本相比有10%的时间可见)。我没有发明这个术语,可以在出版物中找到它。对于重复权重,它是相反的,每个权重代表出现次数,基数(例如,如果观察到10次,则为10)。
令人赞叹的

这很令人困惑,因为您所说的重复权重通常也称为频率权重,但我认为我有所不同。这取决于规范化,对吗?
彼得

不,频率权重是可靠性权重的替代名称。对于重复权重,它是出现的次数,而不是频率。有了重复权重,根本就没有归一化,这就是重点:只要对权重进行归一化,您就会失去基准频率,因此您无法完全消除偏见。唯一的方法是保留发生的总数。如果您真的想使用频率权重,我想如果您预先存储了N次总发生次数,则可以通过将频率权重乘以N来回转换为重复权重,这样就可以了。
令人赞叹的

如果您的权重是1 /方差权重,您将如何称呼它们?那将是“可靠性权重”吗?
Tom Wenseleers
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.