0删减的多元法线的均值和方差是多少？

设在。的均值和协方差矩阵是什么（最大逐元素计算）？ $Z \sim \mathcal N(\mu, \Sigma)$ $\mathbb R^d$ $Z_+ = \max(0, Z)$

例如，这是因为，如果我们在深层网络中使用ReLU激活功能，并通过CLT假定给定层的输入近似正常，则这就是输出的分布。

（我确信很多人以前都已经计算过了，但是我找不到以合理可读的方式列出的结果。）

— 杜加尔
source

它会简化您的答案（可能会大大简化），以观察您可以通过组合两个独立问题的结果来获得答案：（1）截断正态分布的矩是什么，（2）混合的矩是什么？后者很简单，您要做的就是引用前者的结果。

— ub

@whuber嗯。尽管我没有明确说出来，但这基本上就是我的回答，只是我没有找到具有均值和方差的截短的双变量分布的结果，因此无论如何都必须进行一定的缩放和平移。有没有某种方法可以导出例如协方差而不做我必须做的代数运算？我当然不是在说这个答案中的任何内容都是新颖的，只是说代数是乏味且容易出错的，也许其他人会发现该解决方案有用。

— Dougal '18

正确：我确定您的代数与我所描述的相同，因此我们似乎很高兴简化代数。减少代数的一种简单方法是将的对角元素标准化为1，因为所有操作都是为每个变量建立一个度量单位。那时，您可以将Rosenbaum的结果直接插入（简单，明显）的表达式中，以进行混合。是否值得进行代数简化可能是个问题：如果不进行简化，它将导致一个简单的模块化计算机程序。

Σ

$\Sigma$

— ub

我想可以编写一个程序，用Rosenbaum的结果直接计算矩并适当地混合，然后将其移位并缩放回原始空间。那可能比我做的更快。

— Dougal '18

我们首先可以将其减少为仅取决于单变量/双变量截断正态分布的某些时刻：当然，请注意 $\DeclareMathOperator{\E}{\mathbb E} \DeclareMathOperator{\Var}{Var} \DeclareMathOperator{\Cov}{Cov} \newcommand{\N}{\mathcal N} \newcommand{\T}{\tilde} \newcommand{\v}{\mathcal V}$

\begin{matrix} E [Z_{+}] = {[\begin{matrix} E [(Z_{i})_{+}] \end{matrix}]}_{i} \\ Cov (Z_{+}) = {[\begin{matrix} Cov ((Z_{i})_{+}, (Z_{j})_{+}) \end{matrix}]}_{i j}, \end{matrix}

$\begin{gather} \E[Z_+] = \begin{bmatrix} \E[(Z_i)_+] \end{bmatrix}_i \\ \Cov(Z_+) = \begin{bmatrix} \Cov\left( (Z_i)_+, (Z_j)_+ \right) \end{bmatrix}_{ij} ,\end{gather}$ ，由于我们要对正态分布的某些维进行坐标变换，所以我们只需要担心一维删减法线的均值和方差以及两个一维删减法线的协方差。

我们将使用来自的一些结果

S·罗森鲍姆（1961）。截断的二元正态分布的矩。JRSS B，第23卷，第405-408页。（jstor）

Rosenbaum认为并考虑到事件。

[\begin{matrix} \tilde{X} \\ \tilde{Y} \end{matrix}] \sim N ([\begin{matrix} 0 \\ 0 \end{matrix}], [\begin{matrix} 1 & ρ \\ ρ & 1 \end{matrix}]),

$\begin{bmatrix}\T X \\ \T Y\end{bmatrix} \sim \N\left( \begin{bmatrix}0 \\ 0\end{bmatrix}, \begin{bmatrix}1 & \rho \\ \rho & 1\end{bmatrix} \right) ,$

V = {\tilde{X} \geq a_{X}, \tilde{Y} \geq a_{Y}}

$\v = \{ \T X \ge a_X, \T Y \ge a_Y \}$

具体来说，我们将使用以下三个结果，即他的（1），（3）和（5）。首先，定义以下内容：

\begin{matrix} q_{x} = ϕ (a_{x}) q_{y} = ϕ (a_{y}) \\ Q_{x} = Φ (- a_{x}) Q_{y} = Φ (- a_{y}) \\ R_{x y} = Φ (\frac{ρ a_{x} - a_{y}}{\sqrt{1 - ρ^{2}}}) R_{y x} = Φ (\frac{ρ a_{y} - a_{x}}{\sqrt{1 - ρ^{2}}}) \\ r_{x y} = \frac{\sqrt{1 - ρ^{2}}}{\sqrt{2 π}} ϕ (\sqrt{\frac{h^{2} - 2 ρ h k + k^{2}}{1 - ρ^{2}}}) \end{matrix}

$\begin{gather} q_x = \phi( a_x) \qquad q_y = \phi( a_y) \\ Q_x = \Phi(-a_x) \qquad Q_y = \Phi(-a_y) \\ R_{xy} = \Phi\left( \frac{\rho a_x - a_y}{\sqrt{1 - \rho^2}} \right) \qquad R_{yx} = \Phi\left( \frac{\rho a_y - a_x}{\sqrt{1 - \rho^2}} \right) \\ r_{xy} = \frac{\sqrt{1-\rho^2}}{\sqrt{2 \pi}} \phi\left( \sqrt{\frac{h^2 - 2 \rho h k + k^2}{1 - \rho^2}} \right) \end{gather}$

现在，Rosenbaum显示：

\begin{aligned} (1) & Pr (V) E [\tilde{X} ∣ V] & = q_{x} R_{x y} + ρ q_{y} R_{y x} \\ (3) & Pr (V) E [{\tilde{X}}^{2} ∣ V] & = Pr (V) + a_{x} q_{x} R_{x y} + ρ^{2} a_{y} q_{y} R_{y x} + ρ r_{x y} \\ (5) & Pr (V) E [\tilde{X} \tilde{Y} ∣ V] & = ρ Pr (V) + ρ a_{x} q_{x} R_{x y} + ρ a_{y} q_{y} R_{y x} + r_{x y} . \end{aligned}

$\begin{align} \Pr(\v) \E[\T X \mid \v] &= q_x R_{xy} + \rho q_y R_{yx} \tag{1} \\ \Pr\left(\v \right) \E\left[\T X^2 \mid \v \right] &= \Pr\left(\v \right) + a_x q_x R_{xy} + \rho^2 a_y q_y R_{yx} + \rho r_{xy} \tag{3} \\ \Pr(\v) \E\left[ \T X \T Y \mid \v \right] &= \rho \Pr(\v) + \rho a_x q_x R_{xy} + \rho a_y q_y R_{yx} + r_{xy} \tag{5} .\end{align}$

考虑的（1）和（3）的特殊情况也将很有用，即一截断： $a_y = -\infty$

\begin{aligned} (*) & Pr (V) E [\tilde{X} ∣ V] & = q_{x} \\ (**) & Pr (V) E [{\tilde{X}}^{2} ∣ V] & = Pr (V) = Q_{x} . \end{aligned}

$\begin{align} \Pr(\v) \E[\T X \mid \v] &= q_x \tag{*} \\ \Pr\left(\v \right) \E\left[\T X^2 \mid \v \right] &= \Pr\left(\v \right) = Q_x \tag{**} .\end{align}$

现在，我们要考虑

\begin{aligned} [\begin{matrix} X \\ Y \end{matrix}] & = [\begin{matrix} μ_{x} \\ μ_{y} \end{matrix}] + [\begin{matrix} σ_{x} & 0 \\ 0 & σ_{y} \end{matrix}] [\begin{matrix} \tilde{X} \\ \tilde{Y} \end{matrix}] \\ \sim N ([\begin{matrix} μ_{X} \\ μ_{Y} \end{matrix}], [\begin{matrix} σ_{x}^{2} & ρ σ_{x} σ_{y} \\ ρ σ_{x} σ_{y} & σ_{y}^{2} \end{matrix}]) \\ = N (μ, Σ) . \end{aligned}

$\begin{align} \begin{bmatrix}X \\ Y\end{bmatrix} &= \begin{bmatrix}\mu_x\\\mu_y\end{bmatrix} + \begin{bmatrix}\sigma_x & 0 \\ 0 & \sigma_y\end{bmatrix}\begin{bmatrix}\T X \\ \T Y\end{bmatrix} \\&\sim \N\left( \begin{bmatrix}\mu_X\\\mu_Y\end{bmatrix}, \begin{bmatrix}\sigma_x^2 & \rho \sigma_x \sigma_y \\ \rho \sigma_x \sigma_y & \sigma_y^2 \end{bmatrix} \right) \\&= \N\left( \mu, \Sigma \right) .\end{align}$

我们将使用它们是，时和的值。

a_{x} = \frac{- μ_{x}}{σ_{x}} a_{y} = \frac{- μ_{y}}{σ_{y}},

$a_x = \frac{-\mu_x}{\sigma_x} \qquad a_y = \frac{-\mu_y}{\sigma_y} ,$

\tilde{X}

$\T X$

\tilde{Y}

$\T Y$

X = 0

$X = 0$

Y = 0

$Y = 0$

现在，使用（*），我们获得并同时使用（*）和（**）得出，使得

\begin{aligned} E [X_{+}] & = Pr (X_{+} > 0) E [X ∣ X > 0] + Pr (X_{+} = 0) 0 \\ = Pr (X > 0) (μ_{x} + σ_{x} E [\tilde{X} ∣ \tilde{X} \geq a_{x}]) \\ = Q_{x} μ_{x} + q_{x} σ_{x}, \end{aligned}

$\begin{align} \E[ X_+ ] &= \Pr(X_+ > 0) \E[X \mid X > 0] + \Pr(X_+=0) \, 0 \\&= \Pr(X > 0) \left( \mu_x + \sigma_x \E[\T X \mid \T X \ge a_x] \right) \\&= Q_x \mu_x + q_x \sigma_x ,\end{align}$

\begin{aligned} E [X_{+}^{2}] & = Pr (X_{+} > 0) E [X^{2} ∣ X > 0] + Pr (X_{+} = 0) 0 \\ = Pr (\tilde{X} \geq a_{x}) E [(μ_{x} + σ_{x} \tilde{X})^{2} ∣ \tilde{X} \geq a_{x}] \\ = Pr (\tilde{X} \geq a_{x}) E [μ_{x}^{2} + μ_{x} σ_{x} \tilde{X} + σ_{x}^{2} {\tilde{X}}^{2} ∣ \tilde{X} \geq a_{x}] \\ = Q_{x} μ_{x}^{2} + q_{x} μ_{x} σ_{x} + Q_{x} σ_{x}^{2} \end{aligned}

$\begin{align} \E[ X_+^2 ] &= \Pr(X_+ > 0) \E[X^2 \mid X > 0] + \Pr(X_+=0) 0 \\&= \Pr\left(\T X \ge a_x\right) \E\left[(\mu_x + \sigma_x \T X)^2 \mid \T X \ge a_x\right] \\&= \Pr\left(\T X \ge a_x\right) \E\left[\mu_x^2 + \mu_x \sigma_x \T X + \sigma_x^2 \T X^2 \mid \T X \ge a_x\right] \\&= Q_x \mu_x^2 + q_x \mu_x \sigma_x + Q_x \sigma_x^2 \end{align}$

\begin{aligned} Var [X_{+}] & = E [X_{+}^{2}] - E [X_{+}]^{2} \\ = Q_{x} μ_{x}^{2} + q_{x} μ_{x} σ_{x} + Q_{x} σ_{x}^{2} - Q_{x}^{2} μ_{x}^{2} - q_{x}^{2} σ_{x}^{2} - 2 q_{x} Q_{x} μ_{x} σ_{x} \\ = Q_{x} (1 - Q_{x}) μ_{x}^{2} + (1 - 2 Q_{x}) q_{x} μ_{x} σ_{x} + (Q_{x} - q_{x}^{2}) σ_{x}^{2} . \end{aligned}

$\begin{align} \Var[X_+] &= \E[X_+^2] - \E[X_+]^2 \\&= Q_x \mu_x^2 + q_x \mu_x \sigma_x + Q_x \sigma_x^2 - Q_x^2 \mu_x^2 - q_x^2 \sigma_x^2 - 2 q_x Q_x \mu_x \sigma_x \\&= Q_x (1 - Q_x) \mu_x^2 + (1 - 2 Q_x) q_x \mu_x \sigma_x + (Q_x - q_x^2) \sigma_x^2 .\end{align}$

要找到，我们将需要 $\Cov(X_+, Y_+)$

\begin{aligned} E [X_{+} Y_{+}] & = Pr (V) E [X Y ∣ V] + P r (\neg V) 0 \\ = Pr (V) E [(μ_{x} + σ_{x} \tilde{X}) (μ_{y} + σ_{y} \tilde{Y}) ∣ V] \\ = μ_{x} μ_{y} Pr (V) + μ_{y} σ_{x} Pr (V) E [\tilde{X} ∣ V] + μ_{x} σ_{y} Pr (V) E [\tilde{Y} ∣ V] \\ + σ_{x} σ_{y} Pr (V) E [\tilde{X} \tilde{Y} ∣ V] \\ = μ_{x} μ_{y} Pr (V) + μ_{y} σ_{x} (q_{x} R_{x y} + ρ q_{y} R_{y x}) + μ_{x} σ_{y} (ρ q_{x} R_{x y} + q_{y} R_{y x}) \\ + σ_{x} σ_{y} (ρ Pr (V) - ρ μ_{x} q_{x} R_{x y} / σ_{x} - ρ μ_{y} q_{y} R_{y x} / σ_{y} + r_{x y}) \\ = (μ_{x} μ_{y} + σ_{x} σ_{y} ρ) Pr (V) + (μ_{y} σ_{x} + μ_{x} σ_{y} ρ - ρ μ_{x} σ_{y}) q_{x} R_{x y} \\ + (μ_{y} σ_{x} ρ + μ_{x} σ_{y} - ρ μ_{y} σ_{x}) q_{y} R_{y x} + σ_{x} σ_{y} r_{x y} \\ = (μ_{x} μ_{y} + Σ_{x y}) Pr (V) + μ_{y} σ_{x} q_{x} R_{x y} + μ_{x} σ_{y} q_{y} R_{y x} + σ_{x} σ_{y} r_{x y}, \end{aligned}

$\begin{align} \E[X_+ Y_+] &= \Pr(\v) \E[ X Y \mid \v] + Pr(\lnot\v) \, 0 \\&= \Pr(\v) \E\left[ (\mu_x + \sigma_x \T X) (\mu_y + \sigma_y \T Y) \mid \v \right] \\&= \mu_x \mu_y \Pr(\v) + \mu_y \sigma_x \Pr(\v) \E[ \T X \mid \v] + \mu_x \sigma_y \Pr(\v) \E[ \T Y \mid \v] \\&\qquad + \sigma_x \sigma_y \Pr(\v) \E\left[ \T X \T Y \mid \v \right] \\&= \mu_x \mu_y \Pr(\v) + \mu_y \sigma_x (q_x R_{xy} + \rho q_y R_{yx}) + \mu_x \sigma_y (\rho q_x R_{xy} + q_y R_{yx}) \\&\qquad + \sigma_x \sigma_y \left( \rho \Pr\left( \v \right) - \rho \mu_x q_x R_{xy} / \sigma_x - \rho \mu_y q_y R_{yx} / \sigma_y + r_{xy} \right) \\&= (\mu_x \mu_y + \sigma_x \sigma_y \rho) \Pr(\v) + (\mu_y \sigma_x + \mu_x \sigma_y \rho - \rho \mu_x \sigma_y) q_x R_{xy} \\&\qquad + (\mu_y \sigma_x \rho + \mu_x \sigma_y - \rho \mu_y \sigma_x) q_y R_{yx} + \sigma_x \sigma_y r_{xy} \\&= (\mu_x \mu_y + \Sigma_{xy}) \Pr(\v) + \mu_y \sigma_x q_x R_{xy} + \mu_x \sigma_y q_y R_{yx} + \sigma_x \sigma_y r_{xy} ,\end{align}$ 然后减去我们得到

E [X_{+}] E [Y_{+}]

$\E[X_+] \E[Y_+]$

\begin{aligned} Cov (X_{+}, Y_{+}) & = (μ_{x} μ_{y} + Σ_{x y}) Pr (V) + μ_{y} σ_{x} q_{x} R_{x y} + μ_{x} σ_{y} q_{y} R_{y x} + σ_{x} σ_{y} r_{x y} \\ - (Q_{x} μ_{x} + q_{x} σ_{x}) (Q_{y} μ_{y} + q_{y} σ_{y}) . \end{aligned}

$\begin{align} \Cov(X_+, Y_+) &= (\mu_x \mu_y + \Sigma_{xy}) \Pr(\v) + \mu_y \sigma_x q_x R_{xy} + \mu_x \sigma_y q_y R_{yx} + \sigma_x \sigma_y r_{xy} \\&\qquad - (Q_x \mu_x + q_x \sigma_x) (Q_y \mu_y + q_y \sigma_y) .\end{align}$

这是一些用于计算矩的Python代码：

import numpy as np
from scipy import stats

def relu_mvn_mean_cov(mu, Sigma):
    mu = np.asarray(mu, dtype=float)
    Sigma = np.asarray(Sigma, dtype=float)
    d, = mu.shape
    assert Sigma.shape == (d, d)

    x = (slice(None), np.newaxis)
    y = (np.newaxis, slice(None))

    sigma2s = np.diagonal(Sigma)
    sigmas = np.sqrt(sigma2s)
    rhos = Sigma / sigmas[x] / sigmas[y]

    prob = np.empty((d, d))  # prob[i, j] = Pr(X_i > 0, X_j > 0)
    zero = np.zeros(d)
    for i in range(d):
        prob[i, i] = np.nan
        for j in range(i + 1, d):
            # Pr(X > 0) = Pr(-X < 0); X ~ N(mu, S) => -X ~ N(-mu, S)
            s = [i, j]
            prob[i, j] = prob[j, i] = stats.multivariate_normal.cdf(
                zero[s], mean=-mu[s], cov=Sigma[np.ix_(s, s)])

    mu_sigs = mu / sigmas

    Q = stats.norm.cdf(mu_sigs)
    q = stats.norm.pdf(mu_sigs)
    mean = Q * mu + q * sigmas

    # rho_cs is sqrt(1 - rhos**2); but don't calculate diagonal, because
    # it'll just be zero and we're dividing by it (but not using result)
    # use inf instead of nan; stats.norm.cdf doesn't like nan inputs
    rho_cs = 1 - rhos**2
    np.fill_diagonal(rho_cs, np.inf)
    np.sqrt(rho_cs, out=rho_cs)

    R = stats.norm.cdf((mu_sigs[y] - rhos * mu_sigs[x]) / rho_cs)

    mu_sigs_sq = mu_sigs ** 2
    r_num = mu_sigs_sq[x] + mu_sigs_sq[y] - 2 * rhos * mu_sigs[x] * mu_sigs[y]
    np.fill_diagonal(r_num, 1)  # don't want slightly negative numerator here
    r = rho_cs / np.sqrt(2 * np.pi) * stats.norm.pdf(np.sqrt(r_num) / rho_cs)

    bit = mu[y] * sigmas[x] * q[x] * R
    cov = (
        (mu[x] * mu[y] + Sigma) * prob
        + bit + bit.T
        + sigmas[x] * sigmas[y] * r
        - mean[x] * mean[y])

    cov[range(d), range(d)] = (
        Q * (1 - Q) * mu**2 + (1 - 2 * Q) * q * mu * sigmas
        + (Q - q**2) * sigma2s)

    return mean, cov

并进行有效的蒙特卡洛测试：

np.random.seed(12)
d = 4
mu = np.random.randn(d)
L = np.random.randn(d, d)
Sigma = L.T.dot(L)
dist = stats.multivariate_normal(mu, Sigma)

mn, cov = relu_mvn_mean_cov(mu, Sigma)

samps = dist.rvs(10**7)
mn_est = samps.mean(axis=0)
cov_est = np.cov(samps, rowvar=False)
print(np.max(np.abs(mn - mn_est)), np.max(np.abs(cov - cov_est)))

给出0.000572145310512 0.00298692620286，表明所声明的期望和协方差与Monte Carlo估计相符（基于样本）。 $10,000,000$

— 杜加尔
source

您可以总结一下这些最终值是什么？他们是对您生成的参数mu和L的估计吗？也许打印那些目标值？

— AdamO '18年

不，返回值为和；我打印的是这些数量的蒙特卡洛估计量与计算值之间的距离。您也许可以反转这些表达式以获得和的矩匹配估计量– Rosenbaum实际上在截断的情况下在他的第3节中做了这一点–但这不是我想要的。

\E (Z_{+})

$\E(Z_+)$

\Cov (Z_{+})

$\Cov(Z_+)$

L_{\infty}

$L_\infty$

μ

$\mu$

Σ

$\Sigma$

— Dougal '18