15

我正在运行一个实验，在该实验中我将并行收集（独立）样本，我计算了每组样本的方差，现在我想将所有样本合并起来以找到所有样本的总方差。

由于不确定术语，我很难找到这个的派生词。我认为它是一个RV的分区。

所以，我想找到 $Var(X)$ 从 $Var(X_1)$ ， $Var(X_2)$ ，...，和 $Var(X_n)$ ，其中 $X$ = $[X_1, X_2, \dots, X_n]$ 。

编辑：分区不是相同的大小/基数，但是分区大小的总和等于整个样本集中的样本数。

编辑2：这里有一个用于并行计算的公式，但是它仅涉及将分区分为两组而不是 $n$ 组的情况。

variance

— 没食子胺
source

这是一样的在这里我的问题：mathoverflow.net/questions/64120/...

最后一个括号是什么意思？“总差异”是什么意思？除了合并数据集的方差以外，还有其他什么吗？

— ub

@whuber最后一个括号？“总方差”是指总数据集的方差。

— 加拉明2011年

表达式

可能意味着很多事情（尽管通常是矢量）：我正在寻找一个说明。

[X_{1}, X_{2}, \dots, X_{n}]

$[X_1, X_2, \dots, X_n]$

— ub

22

如果所有子样本都具有相同的样本量，则公式非常简单。如果您有个大小为子样本（总共样本），则合并样本的方差取决于每个子样本的均值和方差： $g$ $k$ $gk$ $E_j$ $V_j$ 其中表示样本均值的方差。

V a r (X_{1}, \dots, X_{g k}) = \frac{k - 1}{g k - 1} (\sum_{j = 1}^{g} V_{j} + \frac{k (g - 1)}{k - 1} V a r (E_{j})),

$Var(X_1,\ldots,X_{gk}) = \frac{k-1}{gk-1}(\sum_{j=1}^g V_j + \frac{k(g-1)}{k-1} Var(E_j)),$

V a r (E_{j})

$Var(E_j)$

R中的演示：

> x <- rnorm(100)
> g <- gl(10,10)
> mns <- tapply(x, g, mean)
> vs <- tapply(x, g, var)
> 9/99*(sum(vs) + 10*var(mns))
[1] 1.033749
> var(x)
[1] 1.033749

如果样本数量不相等，则公式不是很好。

编辑：不相等样本量的公式

如果存在个子样本，每个子样本具有元素，总共值，则 $g$ $k_j, j=1,\ldots,g$ $n=\sum{k_j}$

V a r (X_{1}, \dots, X_{n}) = \frac{1}{n - 1} (\sum_{j = 1}^{g} (k_{j} - 1) V_{j} + \sum_{j = 1}^{g} k_{j} ({\bar{X}}_{j} - \bar{X})^{2}),

$Var(X_1,\ldots,X_{n}) = \frac{1}{n-1}\left(\sum_{j=1}^g (k_j-1) V_j + \sum_{j=1}^g k_j (\bar{X}_j - \bar{X})^2\right),$

\bar{X} = (\sum_{j = 1}^{g} k_{j} {\bar{X}}_{j}) / n

$\bar{X} = (\sum_{j=1}^gk_j\bar{X}_j)/n$

再次演示：

> k <- rpois(10, lambda=10)
> n <- sum(k)
> g <- factor(rep(1:10, k))
> x <- rnorm(n)
> mns <- tapply(x, g, mean)
> vs <- tapply(x, g, var)
> 1/(n-1)*(sum((k-1)*vs) + sum(k*(mns-weighted.mean(mns,k))^2))
[1] 1.108966
> var(x)
[1] 1.108966

$(X_{ji}-\bar{X})^2$ $\bar{X}_j$ $[(X_{ji}-\bar{X}_j)-(\bar{X}_j-\bar{X})]^2$ , using the square of difference formula, and simplifying.

— Aniko
source

thanks. Unfortunately, I can't guarantee that my partitions are all the same size. I'm running a massively parallel process where I need to calculate the variances of each partition in parallel then combine in the end, but the results/samples from each parallel process are not equal (it's a Monte Carlo simulation of received photons).

— gallamine

3

I can't +1 this enough, super helpful formula for parallel computation in a data warehouse environment

— Noah Yetter

1

This is simply an add-on to the answer of aniko with a rough sketch of the derivation and some python code, so all credits go to aniko.

derivation

Let $X_j \in X = \{X_1, X_2, \ldots, X_g\}$ be one of $g$ parts of the data where the number of elements in each part is $k_j = |X_j|$ . We define the mean and the variance of each part to be

\begin{aligned} E_{j} & = E [X_{j}] = \frac{1}{k_{j}} \sum_{i = 1}^{k_{j}} X_{j i} \\ V_{j} & = V a r [X_{j}] = \frac{1}{k_{j} - 1} \sum_{i = 1}^{k_{j}} (X_{j i} - E_{j})^{2} \end{aligned}

$\begin{align*} E_j & = \mathrm{E}\left[X_j\right] = \frac{1}{k_j} \sum_{i=1}^{k_j} X_{ji}\\ V_j & = \mathrm{Var}\left[X_j\right] = \frac{1}{k_j-1} \sum_{i=1}^{k_j} (X_{ji} - E_j)^2 \end{align*}$ respectively. If we set

n = \sum_{j = 1}^{g} k_{j}

$n = \sum_{j=1}^g k_j$ , the variance of the total dataset is given by:

\begin{aligned} V a r [X] & = \frac{1}{n - 1} \sum_{j = 1}^{g} \sum_{i = 1}^{k_{j}} (X_{j i} - E [X])^{2} \\ = \frac{1}{n - 1} \sum_{j = 1}^{g} \sum_{i = 1}^{k_{j}} ((X_{j i} - E_{j}) - (E [X] - E_{j}))^{2} \\ = \frac{1}{n - 1} \sum_{j = 1}^{g} \sum_{i = 1}^{k_{j}} (X_{j i} - E_{j})^{2} - 2 (X_{j i} - E_{j}) (E [X] - E_{j}) + (E [X] - E_{j})^{2} \\ = \frac{1}{n - 1} \sum_{j = 1}^{g} (k_{j} - 1) V_{j} + k_{j} (E [X] - E_{j})^{2} . \end{aligned}

$\begin{align*} \mathrm{Var}\left[X\right] & = \frac{1}{n-1} \sum_{j=1}^{g} \sum_{i=1}^{k_j} (X_{ji} - \mathrm{E}\left[X\right])^2 \\ & = \frac{1}{n-1} \sum_{j=1}^{g} \sum_{i=1}^{k_j} \big((X_{ji} - E_j) - (\mathrm{E}\left[X\right] - E_j)\big)^2 \\ & = \frac{1}{n-1} \sum_{j=1}^{g} \sum_{i=1}^{k_j} (X_{ji} - E_j)^2 - 2(X_{ji} - E_j)(\mathrm{E}\left[X\right] - E_j) + (\mathrm{E}\left[X\right] - E_j)^2 \\ & = \frac{1}{n-1} \sum_{j=1}^{g} (k_j - 1) V_j + k_j (\mathrm{E}\left[X\right] - E_j)^2. \end{align*}$ If we have the same size

k

$k$ for each part, i.e.

\forall j : k_{j} = k

$\forall j: k_j = k$ , above formula simplifies to

\begin{aligned} V a r [X] & = \frac{1}{n - 1} \sum_{j = 1}^{g} (k - 1) V_{j} + k (g - 1) V a r [E_{j}] \\ = \frac{k - 1}{n - 1} \sum_{j = 1}^{g} V_{j} + \frac{k (g - 1)}{k - 1} V a r [E_{j}] \end{aligned}

$\begin{align*} \mathrm{Var}\left[X\right] & = \frac{1}{n-1} \sum_{j=1}^g (k-1) V_j + k(g-1) \mathrm{Var}\left[E_j\right] \\ & = \frac{k-1}{n-1} \sum_{j=1}^g V_j + \frac{k(g-1)}{k-1} \mathrm{Var}\left[E_j\right] \end{align*}$

python code

The following python function works for arrays that have been splitted along the first dimension and implements the "more complex" formula for differently sized parts.

import numpy as np

def combine(averages, variances, counts, size=None):
    """
    Combine averages and variances to one single average and variance.

    # Arguments
        averages: List of averages for each part.
        variances: List of variances for each part.
        counts: List of number of elements in each part.
        size: Total number of elements in all of the parts.
    # Returns
        average: Average over all parts.
        variance: Variance over all parts.
    """
    average = np.average(averages, weights=counts)

    # necessary for correct variance in case of multidimensional arrays
    if size is not None:
        counts = counts * size // np.sum(counts, dtype='int')

    squares = (counts - 1) * variances + counts * (averages - average)**2
    return average, np.sum(squares) / (size - 1)

It can be used as follows:

# sizes k_j and n
ks = np.random.poisson(10, 10)
n = np.sum(ks)

# create data
x = np.random.randn(n, 20)
parts = np.split(x, np.cumsum(ks[:-1]))

# compute statistics on parts
ms = [np.mean(p) for p in parts]
vs = [np.var(p, ddof=1) for p in parts]

# combine and compare
combined = combine(ms, vs, ks, x.size)
numpied = np.mean(x), np.var(x, ddof=1)
distance = np.abs(np.array(combined) - np.array(numpied))
print('combined --- mean:{: .9f} - var:{: .9f}'.format(*combined))
print('numpied  --- mean:{: .9f} - var:{: .9f}'.format(*numpied))
print('distance --- mean:{: .5e} - var:{: .5e}'.format(*distance))

— Mr Tsjolder
source

如何计算变量分区的方差

derivation

python code