大样本渐近/理论-为什么要关心?


13

我希望这个问题不会被标记为“过于笼统”,并希望开始进行有益于所有人的讨论。

在统计中,我们花费大量时间来学习大型样本理论。我们对评估我们的估计量的渐近性质非常感兴趣,包括它们是否渐近无偏,渐近有效,它们的渐近分布等。渐近这个词与的假设紧密相关。n

但是,实际上,我们总是处理有限的。我的问题是:n

1)大样本是什么意思?我们如何区分大样本?

2)当我们说,我们的字面意思是应该去吗?ñ nn

例如对于二项分布,大约需要n = 30才能收敛到CLT下的正态分布。我们应该是还是在这种情况下为,是30或更多? Ñ→交通X¯n

3)假设我们有一个有限的样本,并假设我们了解估计量的渐近行为的所有知识。所以呢?假设我们的估计量是渐近无偏的,那么我们在有限样本中是否对感兴趣​​的参数有一个无偏的估计,或者这意味着如果我们有,那么我们将有一个无偏的估计?n

从上面的问题中可以看到,我试图理解“大样本渐近”背后的哲学,并了解我们为什么在乎?我需要对所学的定理有一些直觉。


5
大样本行为是一种证明给定估算器在无限数据范围内起作用的方法。您说对了,它不一定告诉我们有关估算器在实践中的良好程度的信息,但这是第一步:您不太可能希望使用渐近一致的估算器(或其他方法)。渐近分析的优点是,通常比有限样本分析更容易找出问题。
道加尔

您应该开始阅读高阶渐近线,因为您显然只熟悉一阶渐近正态性等。就这样,你还知道关于渐近行为的一切。这就像在说:“我知道;为什么每个人都说正弦是周期性的??”。sinx=x
StasK 2013年

1
对于二项式分布,是一个较差的标准。如果且,平均值= 0.03且sd = 0.173,那么在面值处,通过正态近似,二项式变量小于零的概率为43%,这几乎不是可接受的零近似。更好的规则建议,它们说明了这些高阶问题。n>30p=0.001n=30nmin(p,1p)>15
StasK 2013年

Answers:


6

迟到总比不到好。首先让我列出三个(我认为很重要)的原因,为什么我们要关注估计量的渐近无偏(一致性)。

a)一致性是最低标准。如果即使有大量数据,估计器也无法正确估计,那有什么用呢?这就是Wooldridge:计量经济学入门中给出的理由。

b)难以证明有限的样本性质(或者,渐近陈述更容易)。我目前正在自己​​做一些研究,只要您能依赖大型示例工具,事情就会变得容易得多。大数定律,mar收敛定理等是获得渐近结果的很好的工具,但对有限样本没有帮助。我相信Hayashi(2000):《计量经济学》中提到了类似的思路。

c)如果估计量偏于小样本,则可以通过所谓的小样本校正来纠正或至少改善。从理论上讲,这些通常很复杂(以证明无需校正即可在估计量上得到改善)。另外,大多数人都依赖大型样本,因此通常不会在标准统计软件中实施小型样本校正,因为只有极少数人需要它们(那些无法获取更多数据并关心无偏见的人)。因此,使用那些不常见的校正存在一定的障碍。

关于您的问题。“大样本”是什么意思?这在很大程度上取决于上下文,对于特定工具,可以通过仿真来回答。也就是说,您是人为地生成数据,并查看拒绝率如何随样本大小变化,或者偏差如何随样本大小变化。这里有一个特定的示例,作者其中查看要使OLS群集标准错误,阻止自举标准错误等运行良好所需的群集数量。一些理论家也对收敛速度作了陈述,但出于实际目的,模拟似乎更具参考价值。

是否真的需要?如果那是理论上所说的,是的,但是在应用中我们可以接受很小的,可忽略的偏差,而我们在样本量足够大的情况下很有可能获得这种偏差。充分的含义取决于上下文,请参见上文。n

关于问题3:通常,分别考虑无偏(对于所有样本量)和一致性(对大样本无偏)的问题。估计量可以有偏差,但可以保持一致,在这种情况下,实际上只有大样本估计量是无偏差的。但是,也有一些估计量是无偏且一致的,理论上适用于任何样本量。(估算器也可以是无偏见的,但由于技术原因是不一致的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.