什么时候有偏估计比无偏估计好?


38

很明显,为什么人们更喜欢无偏估计量。但是,在任何情况下,我们实际上可能更喜欢偏向估计量而不是无偏估计量?



12
实际上,对于我而言,为什么偏爱无偏估计量并不明显。偏见就像统计书籍中的客一样,给统计专业的学生带来不必要的恐惧。实际上,信息理论学习方法总是导致小样本中的估计偏差,并且在极限上是一致的。
Cagdas Ozgenc

4
我有一些客户(尤其是在法律案件中)非常希望有偏见的估算者,只要这种偏见是系统地对他们有利的!
whuber

2
Jaynes 概率论的第17.2节(“无偏估计量”):《科学逻辑》是一个非常有见地的讨论,并举例说明了估计量的偏倚是否真正重要或不重要,以及为什么偏偏的偏见可能更可取(在符合Chaconne在下面的出色答案)。
pglpm

1
如果我可以总结一下Chaconne-Jaynes的答案,那么“无偏”估计器可能会在真实值的右侧或左侧出现相等数量的错误;一个“偏见”的人可能会比向右犯错误,反之亦然。但是,无偏的误差,尽管是对称的,但可能远大于有偏的误差。参见Chaconne的第一个人物。在许多情况下,估算器的误差较小,而不是对称的误差,这一点更为重要。
pglpm

Answers:


51

是。通常情况下,我们对最小化均方误差感兴趣,可以将其分解为方差+偏差平方。这是机器学习和一般统计学中的一个极其基本的想法。通常,我们会看到偏差的小幅增加可能会导致方差减小到足以使整体MSE降低的程度。

一个标准的例子是岭回归。我们有有偏;但是如果病情严重,那么可能会很可怕,而可能会适度得多。XV- [R βαXŤX-1V- [R β - [R β^R=(XTX+λI)1XTYXVar(β^)(XTX)1Var(β^R)

另一个例子是kNN分类器。考虑:我们给它的最近邻居分配一个新点。如果我们有大量的数据并且只有几个变量,那么我们可能可以恢复真正的决策边界,并且我们的分类器是无偏的。但是对于任何现实情况,可能都过于灵活(即方差太大),因此较小的偏差不值得(即MSE大于偏差较大但变量较少的分类器)。k = 1k=1k=1

最后,这是一张图片。假设这些是两个估计量的采样分布,我们试图估计0。平坦的一个是无偏的,但也有更多的变量。总的来说,我认为我更喜欢使用有偏的方法,因为即使平均而言我们不会正确,但对于该估计量的任何单个实例,我们都会更加接近。

偏差方差

 
更新

我提到了病态时发生的数值问题,以及岭回归如何提供帮助。这是一个例子。X

我正在制作一个矩阵,它是,第三列几乎全为0,这意味着它几乎不是完整等级,这意味着确实接近于奇异。4 × 3 X T XX4×3XTX

x <- cbind(0:3, 2:5, runif(4, -.001, .001)) ## almost reduced rank

> x
     [,1] [,2]        [,3]
[1,]    0    2 0.000624715
[2,]    1    3 0.000248889
[3,]    2    4 0.000226021
[4,]    3    5 0.000795289

(xtx <- t(x) %*% x) ## the inverse of this is proportional to Var(beta.hat)

           [,1]        [,2]        [,3]
[1,] 14.0000000 26.00000000 3.08680e-03
[2,] 26.0000000 54.00000000 6.87663e-03
[3,]  0.0030868  0.00687663 1.13579e-06

eigen(xtx)$values ## all eigenvalues > 0 so it is PD, but not by much

[1] 6.68024e+01 1.19756e+00 2.26161e-07


solve(xtx) ## huge values

           [,1]        [,2]        [,3]
[1,]   0.776238   -0.458945     669.057
[2,]  -0.458945    0.352219    -885.211
[3,] 669.057303 -885.210847 4421628.936

solve(xtx + .5 * diag(3)) ## very reasonable values

             [,1]         [,2]         [,3]
[1,]  0.477024087 -0.227571147  0.000184889
[2,] -0.227571147  0.126914719 -0.000340557
[3,]  0.000184889 -0.000340557  1.999998999

更新2

如所承诺的,这是一个更彻底的示例。

首先,请记住所有这些要点:我们需要一个好的估算器。有许多定义“好”的方法。假设我们有,我们想估计。X1,...,Xn iid N(μ,σ2)μ

假设我们认为“好的”估算器是无偏的。这不是最佳选择,因为虽然确实为,估计量是无偏的,但我们有数据点,因此忽略几乎所有数据点似乎很愚蠢。为了使这个想法更正式,我们认为我们应该能够得到一个估计值,该估计值对于给定样本而言,与差异应小于。这意味着我们需要一个方差较小的估计量。T1(X1,...,Xn)=X1μnμT1

因此,也许现在我们说我们仍然只需要无偏估计量,但是在所有无偏估计量中,我们将选择方差最小的估计量。这就引出了统一最小方差无偏估计量(UMVUE)的概念,这是经典统计中许多研究的对象。如果我们只需要无偏估计,那么选择方差最小的估计是个好主意。在我们的示例中,考虑与和。同样,这三个变量都是无偏的,但它们具有不同的方差:,和T1T2(X1,...,Xn)=X1+X22Tn(X1,...,Xn)=X1+...+XnnVar(T1)=σ2Var(T2)=σ22Var(Tn)=σ2n。对于具有最小的方差,并且是无偏的,因此这是我们选择的估计量。n>2 Tn

但是通常如此,无偏不倚是一件很奇怪的事情(例如,参见@Cagdas Ozgenc的评论)。我认为部分原因是因为我们通常不太在乎平均情况下的合理估算,而是希望对特定案例进行合理的估算。我们可以使用均方误差(MSE)来量化此概念,该均方误差类似于我们的估算器与我们要估算的事物之间的平均平方距离。如果是的估计量,则。正如我之前提到的,事实证明,其中偏差定义为。因此,我们可能会决定,我们希望使用一个估计器而不是UMVUE来最小化MSE。TθMSE(T)=E((Tθ)2)MSE(T)=Var(T)+Bias(T)2Bias(T)=E(T)θ

假设是无偏的。然后,因此,如果我们仅考虑无偏估计量,则最小化MSE与选择UMVUE相同。但是,正如我在上面显示的那样,在某些情况下,通过考虑非零偏差可以得到更小的MSE。TMSE(T)=Var(T)=Bias(T)2=Var(T)

总而言之,我们要最小化。我们可以要求,然后在做到这一点的那些中选择最佳的,或者我们可以允许两者都变化。允许两者都变化可能会给我们带来更好的MSE,因为它包括无偏见的情况。这个想法是我在答案中前面提到的方差偏见权衡。Var(T)+Bias(T)2Bias(T)=0T

现在,这里是这种权衡的一些图片。我们正在尝试估计,我们有五个模型,从到。是无偏的,并且偏置变得越来越严重,直到为止。具有最大方差,并且方差变得越来越小,直到为止。我们可以将MSE可视化为分布中心距的距离的平方加上到第一个拐点的距离的平方(这是一种查看法线密度SD的方法,这些都是标准密度)。我们可以看到θT1T5T1T5T1T5θT1(黑色曲线)方差太大,以至于没有偏见无济于事:仍然有大量的MSE。相反,对于,方差要小得多,但现在偏差已经足够大,以至于估计量受到了影响。但是在中间的某个地方有一个快乐的媒介,那就是。它已大大降低了变异性(与相比),但仅产生了少量偏差,因此MSE最小。T5T3T1

VBtradeoff

您询问了具有这种形状的估计量的示例:岭回归是一个示例,您可以将每个估计量视为。您可以(也许使用交叉验证)将MSE作图作为的函数,然后选择最佳的。Tλ(X,Y)=(XTX+λI)1XTYλTλ


图片是我所了解的唯一一张。您有对应图片的更简单示例吗?哪些估计量将具有这些形状?
Stan Shunpike

我明天将发布更详细的示例。
2016年

@StanShunpike我添加了一个冗长的更新。请让我知道这是否有助于解决问题。
jld

可能是任何人为回答我的一个问题而付出的最大努力。非常感谢。
Stan Shunpike '16

1
@olivia我想不出一个简单的案例,其中偏见是我关心的唯一标准(尽管有些情况我只是不知道!),尽管有时知道偏见是成为主要因素(例如,考虑一下REML,其中的偏见非常严重,值得采取一些措施)。我认为无论您在做什么,您都只是希望您的一个特定估算器接近事实,这就是MSE所做的。
jld

2

除了上面的MSE解释(这个问题的普遍接受的答案),我想到了两个原因:

  • 管理风险
  • 高效测试

大致上讲,风险是指在不满足某些条件的情况下会爆炸多少东西。采取超高效的估计量:如果超出 -ball值0,则,否则为0。您可以证明此统计量比UMVUE更有效,因为它与UMVUE具有相同的渐近方差,其中,否则为无穷大。这是一个愚蠢的统计数据,霍奇斯以稻草人的身份把它扔在那里。事实证明,如果您在球的边界上取,它将变成不一致的测试,它永远不会知道发生了什么并且风险会爆炸。T(X)=X¯nX¯nϵθ0θn

在minimax世界中,我们尝试将风险降到最低。它可以给我们有偏见的估计量,但我们不在乎,它们仍然有效,因为破坏系统的方法较少。例如,假设我对分布的推断感兴趣,并且该分布会抛出曲线球。修整后的均值系统地抛出高杠杆点。Γ(α,βn)

Tθ(X)=XiI(Xi<θ)/I(Xi<θ)

高效的测试意味着您无需估计自己感兴趣的事物,而是对其进行近似估算,因为这提供了更强大的测试。我能想到的最好的例子是逻辑回归。人们总是将逻辑回归与相对风险回归混为一谈。例如,将吸烟者与不吸烟者相比较,癌症的几率是1.6,并不意味着“吸烟者患癌症的危险性高1.6”。BZZT错误。那是风险比率。从技术上讲,他们的结果几率是1.6倍(提醒:几率=概率/(1-概率))。但是,对于罕见事件,优势比近似于风险比。虽然存在相对风险回归,但是收敛存在很多问题,并且不如逻辑回归那么强大。因此,我们将OR报告为RR(针对稀有事件)的有偏估计,并计算出更有效的CI和p值。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.