线性模型的BLUE（OLS解决方案）以外的其他无偏估计量

对于线性模型，OLS解决方案为参数提供了最佳的线性无偏估计量。

当然，我们可以将偏差换成较低的方差，例如岭回归。但是我的问题是关于没有偏见。是否还有其他一些较常用的估计器，它们没有偏倚但与OLS估计的参数相比具有更高的方差？

如果我有一个庞大的数据集，我当然可以对其进行二次采样，并用较少的数据估计参数，并增加方差。我认为这可能是有用的。

这更多是一个修辞性的问题，因为当我阅读有关BLUE估计量的信息时，没有提供更糟糕的选择。我猜想提供更差的选择还可以帮助人们更好地理解BLUE估计器的功能。

— 久尾
source

最大似然估计器呢？例如，如果您认为您的数据是从具有较低自由度参数（

或

可能是财务回报的特征

的

分布中采样的，则最大似然估计值可能与OLS不符，但我猜想它仍然是公正的。

t

$t$

t (3)

$t(3)$

t (4)

$t(4)$

— 理查德·哈迪

相关： andrewgelman.com/2015/05/11/...

— 的Kjetil b HALVORSEN

@RichardHardy，我也尝试了MLE，并获得了预期的结果。

— Christoph Hanck

我想到的一个例子是一些GLS估计器，它对观测值进行了不同的加权，尽管在满足高斯-马可夫假设时并不必要（统计学家可能不知道这种情况，因此仍然适用GLS）。

考虑在一个常数上 $y_i$ ， $i=1,\ldots,n$ 回归的情况（易于归纳为一般GLS估计量）。这里， $\{y_i\}$ 被假定为从与平均群体的随机样本 $\mu$ 和方差 $\sigma^2$ 。

然后，我们知道，OLS就是，样本均值。为了强调这一点，每个观察与重量加权，写为 $\hat\beta=\bar y$ $1/n$

\hat{β} = \sum_{一世 = 1}^{ñ} \frac{1}{ñ} ÿ_{一世} 。

$\hat\beta=\sum_{i=1}^n\frac{1}{n}y_i.$ 这是众所周知的，

V a r (\hat{β}) = σ^{2} / n

$Var(\hat\beta)=\sigma^2/n$ 。

现在，考虑其可被写为另一种估计

\overset{〜}{β} = \sum_{一世 = 1}^{ñ} w_{一世} ÿ_{一世} ，

$\tilde\beta=\sum_{i=1}^nw_iy_i,$ 其中权重是这样的：

\sum_{i} w_{i} = 1

$\sum_iw_i=1$ 。这样可确保估计器是无偏的，因为

E (\sum_{i = 1}^{n} w_{i} y_{i}) = \sum_{i = 1}^{n} w_{i} E (y_{i}) = \sum_{i = 1}^{n} w_{i} μ = μ .

$E\left(\sum_{i=1}^nw_iy_i\right)=\sum_{i=1}^nw_iE(y_i)=\sum_{i=1}^nw_i\mu=\mu.$ 除非所有

w_{i} = 1 / n

$w_i=1/n$ ，否则它的方差将超过OLS的方差（在这种情况下，它的当然会减小为OLS），例如可以通过拉格朗日算式来显示：

i

$i$

\begin{aligned} L & = V (\tilde{β}) - λ (\sum_{i} w_{i} - 1) \\ = \sum_{i} w_{i}^{2} σ^{2} - λ (\sum_{i} w_{i} - 1), \end{aligned}

$\begin{align*} L&=V(\tilde\beta)-\lambda\left(\sum_iw_i-1\right)\\ &=\sum_iw_i^2\sigma^2-\lambda\left(\sum_iw_i-1\right), \end{align*}$ 与偏导WRT

w_{i}

$w_i$ 设置为零，以等于

2 σ^{2} w_{i} - λ = 0

$2\sigma^2w_i-\lambda=0$ 对所有

i

$i$ 和

\partial L / \partial λ = 0

$\partial L/\partial\lambda=0$ 等于

\sum_{i} w_{i} - 1 = 0

$\sum_iw_i-1=0$ 。求解第一组导数

λ

$\lambda$ 并将它们相等，得出

w_{i} = w_{j}

$w_i=w_j$ ，这意味着

w_{i} = 1 / n

$w_i=1/n$ 通过权重之和为1的要求将方差最小化。

这是使用以下代码创建的模拟仿真的图形化插图：

编辑：响应@kjetilbhalvorsen和@RichardHardy的建议，我还包括 $y_i$ 的中位数，位置参数pf at（4）分布的MLE（我得到警告In log(s) : NaNs produced，我没有进一步检查）和Huber的估计量。情节。

$w_i=(1\pm\epsilon)/n$

BLUE属性并不能立即暗示后三个参数是否优于OLS解决方案（至少对我而言不是），因为它们是否是线性估计量并不明显（我也不知道MLE和Huber是否无偏）。

library(MASS)
n <- 100      
reps <- 1e6

epsilon <- 0.5
w <- c(rep((1+epsilon)/n,n/2),rep((1-epsilon)/n,n/2))

ols <- weightedestimator <- lad <- mle.t4 <- huberest <- rep(NA,reps)

for (i in 1:reps)
{
  y <- rnorm(n)
  ols[i] <- mean(y)
  weightedestimator[i] <- crossprod(w,y)  
  lad[i] <- median(y)   
  mle.t4[i] <- fitdistr(y, "t", df=4)$estimate[1]
  huberest[i] <- huber(y)$mu
}

plot(density(ols), col="purple", lwd=3, main="Kernel-estimate of density of OLS and other estimators",xlab="")
lines(density(weightedestimator), col="lightblue2", lwd=3)     
lines(density(lad), col="salmon", lwd=3)     
lines(density(mle.t4), col="green", lwd=3)
lines(density(huberest), col="#949413", lwd=3)
abline(v=0,lty=2)
legend('topright', c("OLS","weighted","median", "MLE t, 4 df", "Huber"), col=c("purple","lightblue","salmon","green", "#949413"), lwd=3)

— 克里斯多夫·汉克
source

整齐！我认为这是一个非常简单的说明性示例，比我想出的示例更笼统。当人们在常客环境中学习估计量时，我觉得这些例子经常会丢失，它们确实可以帮助您更好地理解这一概念。

— Gumeo

W = \sum_{i = 1}^{n} w (e_{i})

$W=\sum_{i=1}^n w(e_i)$

e_{i}

$e_i$

w

$w$

w (0) = 0

$w(0)=0$

@kjetilbhalvorsen，我现在也包括Huber估计器，它实际上做得很好。

— Christoph Hanck