我认为,我已经理解了一致估计量的数学定义。如果我错了纠正我:
如果则 W n是的一致估计量
其中,是参数空间。但我想了解估计量必须保持一致的必要性。为什么一个不一致的估计是不好的?你能给我一些例子吗?
我接受R或python中的模拟。
我认为,我已经理解了一致估计量的数学定义。如果我错了纠正我:
如果则 W n是的一致估计量
其中,是参数空间。但我想了解估计量必须保持一致的必要性。为什么一个不一致的估计是不好的?你能给我一些例子吗?
我接受R或python中的模拟。
Answers:
考虑来自标准柯西分布的 000个观测值,与具有1个自由度的Student t分布相同。这种分布的尾巴足够重,没有任何平均值。分布以其中位数 η = 0为中心。
样本均值序列对于柯西分布的中心不一致。粗略地说,困难在于非常极端的观测值(正值或负值)以足够的规律性发生,因此不可能收敛到(不仅收敛慢,而且不收敛)吨过会聚。的分布再次是标准柯西[证明])。
相反,在连续采样过程中的任何一步,大约一半的观测值将位于任一侧,因此样本中位数的序列确实收敛于
下面的仿真说明了和的收敛性不足。
set.seed(2019) # for reproducibility
n = 10000; x = rt(n, 1); j = 1:n
a = cumsum(x)/j
h = numeric(n)
for (i in 1:n) {
h[i] = median(x[1:i]) }
par(mfrow=c(1,2))
plot(j,a, type="l", ylim=c(-5,5), lwd=2,
main="Trace of Sample Mean")
abline(h=0, col="green2")
k = j[abs(x)>1000]
abline(v=k, col="red", lty="dotted")
plot(j,h, type="l", ylim=c(-5,5), lwd=2,
main="Trace of Sample Median")
abline(h=0, col="green2")
par(mfrow=c(1,1))
这是步骤您可以在左图中(垂直的红色虚线处)看到一些极端观测值对移动平均值的影响。
k = j[abs(x)>1000]
rbind(k, round(x[k]))
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]
k 291 898 1293 1602 2547 5472 6079 9158
-5440 2502 5421 -2231 1635 -2644 -10194 -3137
一致性在估计中很重要:从柯西人口抽样中,n = 10的样本均值观测值比仅一个观测值更好地估计中心。相反,一致的样本中位数收敛到因此较大的样本产生更好的估计。
@BruceET已经给出了很好的技术答案,但是我想补充一点。
统计学中的基本概念之一是,随着样本量的增加,我们可以得出有关基础分布的更精确的结论。您可以将其视为这样一种概念,即进行大量采样可以消除数据中的随机抖动,因此我们可以更好地了解底层结构。
这一脉定理的实例很丰富,但最知名的是大数定律,断言,如果我们有独立同分布的随机变量的家族 和 ,则
现在,要要求估算器保持一致,就是要求它也遵循以下规则:由于其工作是估算未知参数,因此我们希望它收敛到该参数(请阅读:任意估算该参数)作为样本大小趋于无穷大。
等式
现在,如果需要,您可以反过来查看:如果该条件失败,那么即使样本数量无限,也会有一个宽度为正的“走廊” 周围 还有一个非零的概率,即使样本数量任意大,我们的估计量也会落在该范围之外。这显然违反了上述想法,因此一致性是估算者渴望和执行的非常自然的条件。