是否有一个示例,其中MLE产生了均值的偏差估计?


17

您能否提供一个偏向均值​​的MLE估计器的示例?

我不是要寻找一个通过违反规则性条件而破坏MLE估计值的示例。

我在互联网上看到的所有示例均涉及方差,但似乎找不到与均值相关的任何内容。

编辑

@MichaelHardy提供了一个示例,其中在某些建议的模型下,我们使用MLE得到均匀分布平均值的偏差估计。

然而

https://zh.wikipedia.org/wiki/Uniform_distribution_(连续)#Estimation_of_midpoint

表明MLE是平均的一致最小无偏估计,显然在另一个提出的模型。

在这一点上,对于我来说,如果MLE估计是非常假设的模型依赖的,而不是模型中立的样本均值估计器,那么对MLE估计的含义还不是很清楚。最后,我对估计总体有兴趣,并且并不真正在乎假设模型的参数估计。

编辑2

正如@ChristophHanck展示的那样,该模型带有附加信息,但引入了偏差,但未能降低MSE。

我们还有其他结果:

http://www.maths.manchester.ac.uk/~peterf/CSI_ch4_part1.pdf(P61) http://www.cs.tut.fi/~hehu/SSP/lecture6.pdf(幻灯片2) 的http:/ /www.stats.ox.ac.uk/~marchini/bs2a/lecture4_4up.pdf(幻灯片5)

“如果存在θ的最有效的无偏估计量ˆθ(即ˆθ是无偏的,并且其方差等于CRLB),则将使用最大似然估计法进行估计。”

“此外,如果一个有效的估计存在,它是ML估计”。

由于具有免费模型参数的MLE是无偏且有效的,因此根据定义,这是“最大似然估计器”吗?

编辑3

@AlecosPapadopoulos在数学论坛上有一个具有Half Normal分布的示例。

/math/799954/can-the-maximum-likelihood-estimator-be-unbiased-and-fail-to-achieve-cramer-rao

它没有像在统一情况下那样锚定其任何参数。我想说这可以解决,尽管他还没有证明均值估计器的偏见。


10
零和θ均匀的平均值。
Christoph Hanck

1
我不能按照“估计一些关于人口”和“假设模型的参数”之间的区别。在所有参数统计中,我们通过一些参数对总体进行参数化。当然,我们可能会因此遇到误设的问题,但似乎并不相关手头的问题。
Christoph Hanck

5
例如,总体可以通过其参数/矩来表征,例如均值和方差(例如,这对于正常群体就足够了)。并且:我认为与您在这个论坛上的其他任何人相比,其他人对您的痴迷程度更高。
Christoph Hanck

2
如果您对在“参数”和“均值”之间切换的明显手法感到不满意,请让我根据其平均密度为1的某种非负分布。μ在其支撑的[02μ]...12μ[0,2μ]
蠹虫

1
关于您的编辑2,许多结果是在规则性条件下得出的,该条件对于该线程中讨论的统一示例不满足,对于该示例,样本空间取决于参数。
Christoph Hanck

Answers:


32

克里斯托夫·汉克(Christoph Hanck)尚未发布建议的示例的详细信息。我把它他装置上的间隔均匀分布基于一个IID样本X 1... X Ñ尺寸大于Ñ = 1。[0,θ],X1,,Xnn=1.

平均值是θ/2

平均值的MLE为max{X1,,Xn}/2.

由于是有偏差的所以E max / 2 < θ / 2。Pr(max<θ)=1,E(max/2)<θ/2.

PS:也许我们应该注意的是,平均的最佳无偏估计不是样本平均值,而是ñ + 1θ/2样本均值是θ/2的糟糕估计,因为对于某些样本,样本均值小于1

n+12nmax{X1,,Xn}.
θ/2并且这显然是不可能的θ/2是小于最大/2PS的端12max{X1,,Xn},θ/2max/2.

我怀疑帕累托分布是另一种这样的情况。这是概率测度: 期望值为α

α(κx)α dxx for x>κ.
期望值的MLE为 nαα1κ. ,其中=分钟{X1...XÑ}
nni=1n((logXi)log(min))min
min=min{X1,,Xn}.

对于平均值,我尚未计算出MLE的期望值,所以我不知道它的偏向是什么。


12
卡格达斯,要求举个例子,然后否认您会提出其他建议是不合法的!这就像要求一个非红色水果的例子,被显示为蓝莓,然后说它不重要,因为您不喜欢蓝莓。
ub

7
这与您提出的问题无关。
ub

8
@CagdasOzgenc:MLE是否有偏差取决于模型。没有模型就没有MLE。如果更改模型,则更改MLE。
Michael Hardy

8
@CagdasOzgenc这是一个很普遍的问题:样本均值是什么的无偏估计量?您需要一个模型来估计参数。
马修·德鲁里

9
一个iid样本的均值是总体均值的一个无偏估计量,但是如果没有结构要多于一个东西的无偏估计量,就无法说出任何事物的最大似然估计量。
Michael Hardy

18

这是一个示例,我认为某些示例可能会令人惊讶:

在逻辑回归中,对于具有不确定性结果(即)的任何有限样本量,任何估计的回归系数不仅有偏差,而且回归系数的平均值实际上是不确定的。0<pi<1

这是因为,对于任何有限的样本量,获得完全分离结果的可能性都是正的概率(尽管样本数量比回归参数的数量大,但是可能性很小)。当发生这种情况,估计回归系数将是要么。有被无论是正面的概率- 暗示的预期值是不确定的。

有关此特定问题的更多信息,请参见Hauck-Donner-effect


1
这很聪明。我想知道logistic回归系数的MLE是否不受Hauck-Donner效应不出现的影响吗?
gung-恢复莫妮卡

3
@gung:简短的答案:忽略Hauck-Donner效应,绝对回归系数仍然存在向上偏差(即,负系数具有向下偏差,正系数具有向上偏差)。有趣的是,估计概率似乎偏向0.5。我已经开始在这篇文章中写关于它的内容,但是还没有将我的结果放在估计概率的偏差上。
悬崖AB

10

尽管@MichaelHardy指出了这一点,但这里有一个更详细的论据,说明为何最大值的MLE(因此,由不变性得出的平均的MLE )不会无偏,尽管它在不同的模型中(请参见下面的修改)。θ/2

我们估计均匀分布的上限。在这里, y n 是随机样本y的MLE 。我们证明y n 不是无偏的。其cdf为 F y n x U[0,θ]y(n)yy(n) 因此,其密度为 fynx={n

Fy(n)(x)=Pr{Y1x,,Ynx}=Pr{Y1x}n={0forx<0(xθ)nfor0xθ1forx>θ
E [ Y n ]
fy(n)(x)={nθ(xθ)n1for0xθ0else
E[Y(n)]=0θxnθ(xθ)n1dx=0θn(xθ)ndx=nn+1θ

编辑:确实是这样的情况(请参阅评论中的讨论),在下界和上限b均未知的情况下,MLE对于均值是无偏的。然后,最小ÿ 1 是MLE为一个,与(细节省略)预期值 ê Ý 1 = Ñ 一个+ babY(1)aEYnn=nb+a

E(Y(1))=na+bn+1
,使得对于MLE一个+b/2ÿ1 +ÝÑ
E(Y(n))=nb+an+1
(a+b)/2 具有期望值 E Y 1 + Y n
Y(1)+Y(n)2
E(Y(1)+Y(n)2)=na+b+nb+a2(n+1)=a+b2

编辑2:详细说明亨利的观点,这是对均值估计值的MSE进行的一些模拟,表明虽然我们不知道下界为零的MLE是无偏的,但两个变体的MSE是相同的,表明结合了下界知识的估计量可减少变异性。

theta <- 1
mean <- theta/2
reps <- 500000
n <- 5
mse <- bias <- matrix(NA, nrow = reps, ncol = 2)

for (i in 1:reps){
  x <- runif(n, min = 0, max = theta)
  mle.knownlowerbound <- max(x)/2
  mle.unknownlowerbound <- (max(x)+min(x))/2
  mse[i,1] <- (mle.knownlowerbound-mean)^2
  mse[i,2] <- (mle.unknownlowerbound-mean)^2
  bias[i,1] <- mle.knownlowerbound-mean
  bias[i,2] <- mle.unknownlowerbound-mean

}

> colMeans(mse)
[1] 0.01194837 0.01194413

> colMeans(bias)
[1] -0.083464968 -0.000121968

因为Wikipedia提出了不同的模型。那就是我的困惑所在。
Cagdas Ozgenc

Yes, but once we adjust to the special case discussed here, namely a=0,我们回到正方形1。在那种情况下,我们不再需要样本最小值来进行估计,因为我们知道下界为零,因此中点(= median = mean)的MLE变成(m一种X+0/2再次。
Christoph Hanck

2
我还没有弄清楚细节,但是如果最小值高估了下限的幅度与最大值低估了最大值的幅度相同,那么该模型中的MLE可能是无偏差的,因此估计中点时不会产生偏差。
Christoph Hanck

4
@CagdasOzgenc:无偏性不是唯一的,甚至是最重要的措施更好。通过精确地知道支撑的一端,您可能会失去估计均值的误差之间的平衡,但最终(例如)可以更好地估计范围
亨利(Henry)

6
在小样本量的所有标准中,最大似然估计值并不总是“最佳”的。所以呢?他们也不假装自己。如果您想对问题使用不同的估计量,且该估计量的确定标准符合实际样本量附近的一些样本量准则,则可以随意这样做。我这样做,其他人也这样做。没有人声称使用MLE在所有情况下都是合理的,仅因为它是MLE。
jbowman

5

在这里完成在OP所引用的math.se答案中的遗漏,

假设我们有一个大小为iid的样本 ñ半正态后 的随机变量 distribution. The density and moments of this distribution are

fH(x)=2/π1v1/2exp{x22v}E(X)=2/πv1/2μ,Var(X)=(12π)v

The log-likelihood of the sample is

L(vx)=nln2/πn2lnv12vi=1nxi2

The first derivative with respect to v is

vL(vx)=n2v+12v2i=1nxi2,v^MLE=1ni=1nxi2

so it is a method of moments estimator. It is unbiased since,

E(v^MLE)=E(X2)=Var(X)+[E(X)])2=(12π)v+2πv=v

But, the resulting estimator for the mean is downward biased due to Jensen's inequality

μ^MLE=2/πv^MLEE(μ^MLE)=2/πE(v^MLE)<2/π[E(v^MLE)]=2/πv=μ

4

著名的内曼·斯科特(Neyman Scott)问题的MLE不一致,因为它甚至从未收敛到正确的事物。鼓励使用条件可能性。

采取 X一世ÿ一世ñμ一世σ2。的MLEμ一世X一世+ÿ一世/2 和的 σ2σ^2=i=1n1nsi2 with si2=(Xiμ^i)2/2+(Yiμ^i)2/2=(XiYi)2/4 which has expected value σ2/4 and so biased by a factor of 2.


2
尽管此示例成立,但实际上违反了MLE渐近结果的基本规律性条件之一: ķ/ñ0,在哪里 ķ 是估计的参数数量, ñ 是样本量。
悬崖AB

1
@CliffAB the assumption violation is that the parametric dimension is not fixed. The dimension of Θ goes to as n. I think that's what you're saying, but don't know what k means. The practical illustration of this example of course is that these results would be biased even in small samples and you have to use conditional likelihood, like a mixed effects model, to estimate σ in this case.
AdamO

3

There is an infinite range of examples for this phenomenon since

  1. the maximum likelihood estimator of a bijective transform Ψ(θ) of a parameter θ is the bijective transform of the maximum likelihood estimator of θ, Ψ(θ^MLE);
  2. the expectation of the bijective transform of the maximum likelihood estimator of θ, Ψ(θ^MLE), E[Ψ(θ^MLE)] is not the bijective transform of the expectation of the maximum likelihood estimator, Ψ(E[θ^MLE]);
  3. most transforms Ψ(θ) are expectations of some transform of the data, h(X), at least for exponential families, provided an inverse Laplace transform can be applied to them.
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.