我正在做一些数值实验,包括对对数正态分布进行采样,并尝试通过两种方法估算矩:ë [ X Ñ ]
- 看的样本均值
- 通过使用的样本均值估算和,然后使用对数正态分布的事实,我们有。σ 2日志(X ),登录2(X )é [ X Ñ ] = EXP (Ñ μ + (Ñ σ )2 / 2 )
问题是:
从实验上我发现,当我固定样本数量并将增加某个因子T 时,第二种方法的性能要比第一种更好。对此有一些简单的解释吗?
我附上一个图,其中x轴为T,而y轴为的值,比较的真实值(橙色线),到估算值。方法1-蓝点,方法2-绿点。y轴为对数刻度
编辑:
下面是一个最小的Mathematica代码,可以产生一个T的结果,并输出:
ClearAll[n,numIterations,sigma,mu,totalTime,data,rmomentFromMuSigma,rmomentSample,rmomentSample]
(* Define variables *)
n=2; numIterations = 10^4; sigma = 0.5; mu=0.1; totalTime = 200;
(* Create log normal data*)
data=RandomVariate[LogNormalDistribution[mu*totalTime,sigma*Sqrt[totalTime]],numIterations];
(* the moment by theory:*)
rmomentTheory = Exp[(n*mu+(n*sigma)^2/2)*totalTime];
(*Calculate directly: *)
rmomentSample = Mean[data^n];
(*Calculate through estimated mu and sigma *)
muNumerical = Mean[Log[data]]; (*numerical \[Mu] (gaussian mean) *)
sigmaSqrNumerical = Mean[Log[data]^2]-(muNumerical)^2; (* numerical gaussian variance *)
rmomentFromMuSigma = Exp[ muNumerical*n + (n ^2sigmaSqrNumerical)/2];
(*output*)
Log@{rmomentTheory, rmomentSample,rmomentFromMuSigma}
输出:
(*Log of {analytic, sample mean of r^2, using mu and sigma} *)
{140., 91.8953, 137.519}
上面的第二个结果是的样本均值,低于其他两个结果
2
一个无偏估计并不会意味着蓝点应该是预期值(橙色曲线)附近。如果估算器的概率太低而概率很高,则概率很小(可能逐渐消失)。这就是随着T的增加而发生的情况,并且方差变得很大(请参见我的答案)。
—
马修·冈恩
有关如何获取无偏估计量的信息,请参见stats.stackexchange.com/questions/105717。均值和方差的UMVUE在答案和注释中给出。
—
豪伯