1
合并观测值的标准差
我有一个样本观测数据集,存储为范围箱内的计数。例如: min/max count 40/44 1 45/49 2 50/54 3 55/59 4 70/74 1 现在,从中找到平均值的估计非常简单。只需将每个范围区间的平均值(或中位数)用作观察值,并将计数作为权重即可找到加权平均值: x¯∗=1∑Ni=1wi∑i=1Nwixix¯∗=1∑i=1Nwi∑i=1Nwixi\bar{x}^* = \frac{1}{\sum_{i=1}^N w_i} \sum_{i=1}^N w_ix_i 对于我的测试用例,这给了我53.82。 现在我的问题是,找到标准偏差(或方差)的正确方法是什么? 通过搜索,我找到了几个答案,但不确定哪一个实际上适合我的数据集。在这里的另一个问题和随机的NIST文档中,我都能找到以下公式。 s2∗=∑Ni=1wi(xi−x¯∗)2(M−1)M∑Ni=1wis2∗=∑i=1Nwi(xi−x¯∗)2(M−1)M∑i=1Nwis^{2*} = \frac{ \sum_{i=1}^N w_i (x_i - \bar{x}^*)^2 }{ \frac{(M-1)}{M} \sum_{i=1}^N w_i } 对于我的测试用例,其标准偏差为8.35。但是,维基百科有关加权均值的文章给出了两个公式: s2∗=∑Ni=1wi(∑Ni=1wi)2−∑Ni=1w2i∑i=1Nwi(xi−x¯∗)2s2∗=∑i=1Nwi(∑i=1Nwi)2−∑i=1Nwi2∑i=1Nwi(xi−x¯∗)2s^{2*} = \frac{ \sum_{i=1}^N w_i}{(\sum_{i=1}^N w_i)^2 - \sum_{i=1}^N w_i^2} \sum_{i=1}^N w_i(x_i-\bar{x}^*)^2 和 s2∗=1(∑Ni=1wi)−1∑i=1Nwi(xi−x¯∗)2s2∗=1(∑i=1Nwi)−1∑i=1Nwi(xi−x¯∗)2s^{2*} …