对数正态分布的矩估计量的偏差

我正在做一些数值实验，包括对对数正态分布进行采样，并尝试通过两种方法估算矩： $X\sim\mathcal{LN}(\mu, \sigma)$ $\mathbb{E}[X^n]$

看的样本均值 $X^n$
通过使用的样本均值估算和，然后使用对数正态分布的事实，我们有。 $\mu$ $\sigma^2$ $\log(X), \log^2(X)$ $\mathbb{E}[X^n]=\exp(n \mu + (n \sigma)^2/2)$

问题是：

从实验上我发现，当我固定样本数量并将增加某个因子T 时，第二种方法的性能要比第一种更好。对此有一些简单的解释吗？ $\mu, \sigma^2$

我附上一个图，其中x轴为T，而y轴为的值，比较的真实值（橙色线），到估算值。方法1-蓝点，方法2-绿点。y轴为对数刻度 $\mathbb{E}[X^2]$ $\mathbb{E}[X^2] = \exp(2 \mu + 2 \sigma^2)$

$$ \ mathbb {E} [X ^ 2] $的真实和估计值。蓝点是$ \ mathbb {E} [X ^ 2] $（方法1）的样本均值，而绿点是使用方法2的估计值。橙色线是从已知的$ \ mu $，$ \计算得出的sigma $与方法2中的方程相同。y轴为对数刻度$

编辑：

下面是一个最小的Mathematica代码，可以产生一个T的结果，并输出：

   ClearAll[n,numIterations,sigma,mu,totalTime,data,rmomentFromMuSigma,rmomentSample,rmomentSample]
(* Define variables *)
n=2; numIterations = 10^4; sigma = 0.5; mu=0.1; totalTime = 200;
(* Create log normal data*)
data=RandomVariate[LogNormalDistribution[mu*totalTime,sigma*Sqrt[totalTime]],numIterations];

(* the moment by theory:*)
rmomentTheory = Exp[(n*mu+(n*sigma)^2/2)*totalTime];

(*Calculate directly: *)
rmomentSample = Mean[data^n];

(*Calculate through estimated mu and sigma *)
muNumerical = Mean[Log[data]]; (*numerical \[Mu] (gaussian mean) *)
sigmaSqrNumerical = Mean[Log[data]^2]-(muNumerical)^2; (* numerical gaussian variance *)
rmomentFromMuSigma = Exp[ muNumerical*n + (n ^2sigmaSqrNumerical)/2];

(*output*)
Log@{rmomentTheory, rmomentSample,rmomentFromMuSigma}

输出：

(*Log of {analytic, sample mean of r^2, using mu and sigma} *)
{140., 91.8953, 137.519}

上面的第二个结果是的样本均值，低于其他两个结果 $r^2$

— 用户名
source

一个无偏估计并不会意味着蓝点应该是预期值（橙色曲线）附近。如果估算器的概率太低而概率很高，则概率很小（可能逐渐消失）。这就是随着T的增加而发生的情况，并且方差变得很大（请参见我的答案）。

— 马修·冈恩

有关如何获取无偏估计量的信息，请参见stats.stackexchange.com/questions/105717。均值和方差的UMVUE在答案和注释中给出。

— 豪伯

Answers:

这些结果有些令人困惑，因为

第一种方法提供的无偏估计，即 $\mathbb{E}[X^2]$ 以为平均值。因此，蓝点应在预期值（橙色曲线）附近； $\frac{1}{N} \sum_{i = 1}^{N} X_{i}^{2}$ $\frac{1}{N}\sum_{i=1}^N X_i^2$ $\mathbb{E}[X^2]$
第二方法提供的偏估计，即时，和是无偏估计和 $\mathbb{E}[X^2]$ $E [\exp (n \hat{μ} + n^{2} {\hat{σ}}^{2} / 2)] > \exp (n μ + (n σ)^{2} / 2)$ $\mathbb{E}[\exp(n \hat\mu + n^2 \hat{\sigma}^2/2)]>\exp(n \mu + (n \sigma)^2/2)$ $\hat\mu$ $\hat\sigma²$ $\mu$ $\sigma²$ 绿点与橙色曲线对齐，这很奇怪。

但它们是由于问题，而不是数值计算：我重复R中的实验，得到了具有相同的颜色代码如下图片与相同序列的和的，其代表每一个估计器划分真正的期望： $\mu_T$ $\sigma_T$

这是相应的R代码：

moy1=moy2=rep(0,200)
mus=0.14*(1:200)
sigs=sqrt(0.13*(1:200))
tru=exp(2*mus+2*sigs^2)
for (t in 1:200){
x=rnorm(1e5)
moy1[t]=mean(exp(2*sigs[t]*x+2*mus[t]))
moy2[t]=exp(2*mean(sigs[t]*x+mus[t])+2*var(sigs[t]*x+mus[t]))}

plot(moy1/tru,col="blue",ylab="relative mean",xlab="T",cex=.4,pch=19)
abline(h=1,col="orange")
lines((moy2/tru),col="green",cex=.4,pch=19)

因此确实存在第二经验时刻作为崩溃和的增加，我会归因于在方差的巨大增加的所述第二经验时刻，和的增加。 $\mu$ $\sigma$ $\mu$ $\sigma$

$\mathbb{E}[X^2]$ $X^2$ $X^2$ $e^{2\mu}$ $X^2$ $\exp\{2\mu+2\sigma\epsilon\}$ $\epsilon\sim\mathcal{N}(0,1)$ $\sigma$ $\sigma\epsilon$ $\sigma^2$ $X$ $\mathcal{LN}(\mu,\sigma)$
$\begin{aligned} P (X^{2} > E [X^{2}]) & = P (\log {X^{2}} > 2 μ + 2 σ^{2}) \\ = P (μ + σ ϵ > μ + σ^{2}) \\ = P (ϵ > σ) \\ = 1 - Φ (σ) \end{aligned}$ $\begin{align*}\mathbb{P}(X^2>\mathbb{E}[X^2])&=\mathbb{P}(\log\{X^2\}>2\mu+2\sigma^2)\\&=\mathbb{P}(\mu+\sigma\epsilon>\mu+\sigma^2)\\&=\mathbb{P}(\epsilon>\sigma)\\ &=1-\Phi(\sigma)\end{align*}$

— 西安
source

我也很困惑。我在结果中添加了最少的代码（Mathematica）

— user29918 '16

好。谢谢！加上一些数字，我现在发现我微薄的样本量确实无法完成任务！

— user29918 '16

σ

$\sigma$

P (X^{2} > E [X^{2}]) = 1 - Φ (σ)

$P(X^2 > \mathbb{E}[X^2]) = 1 - \Phi(\sigma)$

σ

$\sigma$

σ

$\sigma$

σ

$\sigma$

我以为我会抛出一些无花果，表明user29918和西安的地块是一致的。图1绘制了user29918所做的事情，图2（基于相同的数据）绘制了西安为他的绘制所做的事情。结果相同，表示方式不同。

$\frac{1}{n} \sum_i x_i^2$

进一步说明：

一个无偏估计并不会意味着估计有望接近！蓝点不必接近预期。例如。随机选择一个观察值可得出总体平均值的无偏估计，但不会期望该估计值接近。
随着方差变得绝对是天文数字，这个问题越来越严重。当方差变大时，第一种方法的估计值只是一些观察而已。您还开始拥有极小，极小数量的疯狂，疯狂，疯狂大数字...
$P(X^2 > E[X^2]) = 1 - \Phi(\sigma)$ $\sigma$ $X^2 > E[X^2]$

— 马修·冈恩
source