对数正态分布的矩估计量的偏差


25

我正在做一些数值实验,包括对对数正态分布进行采样,并尝试通过两种方法估算矩:ë [ X Ñ ]XLN(μ,σ)E[Xn]

  1. 看的样本均值Xn
  2. 通过使用的样本均值估算和,然后使用对数正态分布的事实,我们有。σ 2日志X 登录2X é [ X Ñ ] = EXP Ñ μ + Ñ σ 2 / 2 μσ2log(X),log2(XE[Xn]=exp(nμ+(nσ)2/2)

问题是

从实验上我发现,当我固定样本数量并将增加某个因子T 时,第二种方法的性能要比第一种更好。对此有一些简单的解释吗?μ,σ2

我附上一个图,其中x轴为T,而y轴为的值,比较的真实值(橙色线),到估算值。方法1-蓝点,方法2-绿点。y轴为对数刻度E[X2]E[X2]=exp(2μ+2σ2)

$ \ mathbb {E} [X ^ 2] $的真实和估计值。 蓝点是$ \ mathbb {E} [X ^ 2] $(方法1)的样本均值,而绿点是使用方法2的估计值。橙色线是从已知的$ \ mu $,$ \计算得出的sigma $与方法2中的方程相同。y轴为对数刻度

编辑:

下面是一个最小的Mathematica代码,可以产生一个T的结果,并输出:

   ClearAll[n,numIterations,sigma,mu,totalTime,data,rmomentFromMuSigma,rmomentSample,rmomentSample]
(* Define variables *)
n=2; numIterations = 10^4; sigma = 0.5; mu=0.1; totalTime = 200;
(* Create log normal data*)
data=RandomVariate[LogNormalDistribution[mu*totalTime,sigma*Sqrt[totalTime]],numIterations];

(* the moment by theory:*)
rmomentTheory = Exp[(n*mu+(n*sigma)^2/2)*totalTime];

(*Calculate directly: *)
rmomentSample = Mean[data^n];

(*Calculate through estimated mu and sigma *)
muNumerical = Mean[Log[data]]; (*numerical \[Mu] (gaussian mean) *)
sigmaSqrNumerical = Mean[Log[data]^2]-(muNumerical)^2; (* numerical gaussian variance *)
rmomentFromMuSigma = Exp[ muNumerical*n + (n ^2sigmaSqrNumerical)/2];

(*output*)
Log@{rmomentTheory, rmomentSample,rmomentFromMuSigma}

输出:

(*Log of {analytic, sample mean of r^2, using mu and sigma} *)
{140., 91.8953, 137.519}

上面的第二个结果是的样本均值,低于其他两个结果r2


2
一个无偏估计并不会意味着蓝点应该是预期值(橙色曲线)附近。如果估算器的概率太低而概率很高,则概率很小(可能逐渐消失)。这就是随着T的增加而发生的情况,并且方差变得很大(请参见我的答案)。
马修·冈恩

有关如何获取无偏估计量的信息,请参见stats.stackexchange.com/questions/105717。均值和方差的UMVUE在答案和注释中给出。
豪伯

Answers:


22

这些结果有些令人困惑,因为

  1. 第一种方法提供的无偏估计,即1E[X2]E[X2]为平均值。因此,蓝点应在预期值(橙色曲线)附近;
    1Ni=1NXi2
    E[X2]
  2. 第二方法提供的偏估计,即ë [ EXP Ñ μ + Ñ 2 σ 2 / 2 ] > EXP Ñ μ + Ñ σ 2 / 2 时,μσ ²是无偏估计μσ ²E[X2]
    E[exp(nμ^+n2σ^2/2)]>exp(nμ+(nσ)2/2)
    μ^σ^²μσ² 绿点与橙色曲线对齐,这很奇怪。

但它们是由于问题,而不是数值计算:我重复R中的实验,得到了具有相同的颜色代码如下图片与相同序列的和σ Ť的,其代表每一个估计器划分真正的期望:μTσT

基于10⁶对数正态模拟的两个经验秒矩

这是相应的R代码:

moy1=moy2=rep(0,200)
mus=0.14*(1:200)
sigs=sqrt(0.13*(1:200))
tru=exp(2*mus+2*sigs^2)
for (t in 1:200){
x=rnorm(1e5)
moy1[t]=mean(exp(2*sigs[t]*x+2*mus[t]))
moy2[t]=exp(2*mean(sigs[t]*x+mus[t])+2*var(sigs[t]*x+mus[t]))}

plot(moy1/tru,col="blue",ylab="relative mean",xlab="T",cex=.4,pch=19)
abline(h=1,col="orange")
lines((moy2/tru),col="green",cex=.4,pch=19)

因此确实存在第二经验时刻作为崩溃σ的增加,我会归因于在方差的巨大增加的所述第二经验时刻,μσ的增加。μσμσ

E[X2]X2X2e2μX2exp{2μ+2σϵ}ϵN(0,1)σσϵσ2XLN(μ,σ)

P(X2>E[X2])=P(log{X2}>2μ+2σ2)=P(μ+σϵ>μ+σ2)=P(ϵ>σ)=1Φ(σ)

1
我也很困惑。我在结果中添加了最少的代码(Mathematica)
user29918 '16

好。谢谢!加上一些数字,我现在发现我微薄的样本量确实无法完成任务!
user29918 '16

2
σ

2
P(X2>E[X2])=1Φ(σ)σσ

2
σ

13

我以为我会抛出一些无花果,表明user29918和西安的地块是一致的。图1绘制了user29918所做的事情,图2(基于相同的数据)绘制了西安为他的绘制所做的事情。结果相同,表示方式不同。

1nixi2

进一步说明:

  1. 一个无偏估计并不会意味着估计有望接近!蓝点不必接近预期。例如。随机选择一个观察值可得出总体平均值的无偏估计,但不会期望该估计值接近。
  2. 随着方差变得绝对是天文数字,这个问题越来越严重。当方差变大时,第一种方法的估计值只是一些观察而已。您还开始拥有极小,极小数量的疯狂,疯狂,疯狂大数字...
  3. P(X2>E[X2])=1Φ(σ)σX2>E[X2]在此处输入图片说明

在此处输入图片说明

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.