最小二乘假设


9

假定以下线性关系: Yi=β0+β1Xi+ui,其中Yi是因变量,Xi的单个自变量和ui误差项。

根据Stock&Watson(《计量经济学概论》;第4章),第三个最小二乘假设Xi的第四矩是ui非零且有限的(0<E(Xi4)< and 0<E(ui4)<)

我有三个问题:

  1. 我不完全理解此假设的作用。如果该假设不成立,或者我们需要此假设进行推断,OLS是否有偏见且不一致?

  2. Stock和Watson写道:“这种假设限制了使用Xi极大值进行观察的可能性ui。” 但是,我的直觉是这种假设是极端的。如果我们有较大的离群值(例如第四矩很大),但是如果这些值仍然有限,我们会遇到麻烦吗?顺便说一句:离群值的基础定义是什么?

  3. 我们可以重新定义为:“ Xi的峰度ui是非零且有限的吗?”


不幸的是,我现在不能写一个完整的答案,而是要回答您的问题:1,无论如何,OLS一致性都可以工作。如图2所示,没有明确的离群值定义,但是在存在离群值的情况下,OLS在大型样本中工作良好。3,对于我的一生,我想不出一个不正确的例子,但是有人可以证明我是错的,所以不能保证
Repmat

5
我认为“但在存在离群值的情况下,OLS可以在大样本中很好地工作”……在x空间中采用足够大的离群值(即有影响的观察),单点可以迫使LS拟合通过。如果它在Y方向上还是一个离群值,那么无论它的极端程度如何,您的直线仍将经过该点。
Glen_b-恢复莫妮卡

2
异常值很容易定义。它们是与大量数据的模式不一致的观察结果。如Glen_b的示例所示,该点对拟合具有不适当的影响,其极限超过数据集中的所有其他观察值,从而导致估计值有很大偏差。
2016年

1
@ user603当然...等等...我还没有遇到一个程序/脚本,它可以自动检测异常值,并且以清晰的方式进行检测,以至于我们都同意这是正确的方法...因此,尽管我同意您的观点,它没有帮助OP
Repmat '16

@Repmat:请重新阅读OP的问题。我的评论直接回答了其中一个带有问号的句子。
user603 2016年

Answers:


9

不是需要对OLS估计量的一致性第四时刻假设,但你做的高阶矩需要假设ε的渐近正态性,并始终如一地估计渐近协方差矩阵是什么。xϵ

从某种意义上讲,这是数学上的技术要点,而不是实践上的要点。为了使OLS在某些情况下可以在有限样本中正常工作,它需要的不仅仅是达到渐近一致性或正态性所需的最小假设。n

足够的一致性条件:

如果您具有回归方程:

yi=xiβ+ϵi

OLS估算器可以写为: b^

b^=β+(XXn)1(Xϵn)

为了保持一致性,您需要能够应用Kolmogorov的大数定律,或者在具有序列依赖性的时间序列的情况下,应用诸如Karlin和Taylor的Ergodic定理这样的方法:

1nXXpE[xixi]1nXϵpE[xiϵi]

其他需要的假设是:

  • E[xixi]是完整等级,因此矩阵是可逆的。
  • 回归变量是预先确定的或严格为外生的,因此。E[xiϵi]=0

然后,您会得到(XXn)1(Xϵn)p0b^pβ

如果要应用中心极限定理,需要对更高的矩进行假设,例如,其中。中心极限定理是给您渐近正态性并让您谈论标准误差的原因。对于第二个存在,您需要和的第四个矩存在。您想证明哪里E[gigi]gi=xiϵib^E[gigi]xϵn(1nixiϵi)dN(0,Σ)Σ=E[xixiϵi2]。为此,必须是有限的。Σ

Hayashi的计量经济学中给出了一个很好的讨论(激发了这篇文章的动机)。(另请参见第149页的第4时刻并估计协方差矩阵。)

讨论:

第四时刻的这些要求可能是一个技术要点,而不是实践要点。在日常数据中存在问题的地方,您可能不会遇到病理分布?是为了让OLS更常见或其他假设出错。

毫无疑问,Stackexchange的其他地方回答了一个不同的问题,即有限样本需要多少样本才能接近渐近结果。从某种意义上说,奇异的异常值会导致收敛缓慢。例如,尝试估计具有很高方差的对数正态分布的均值。样本均值是总体均值的一致,无偏估计量,但是在这种对数正态情况下,出现了疯狂的超峰度等。

有限与无限是数学中极为重要的区别。那不是您在日常统计中遇到的问题。实际问题更多地在小类别与大类别中。方差,峰度等...是否足够小,以便在给定样本量的情况下我可以实现合理的估计?

OLS估计量一致但渐近不正常的病理示例

考虑:

yi=bxi+ϵi
其中但来自具有2个自由度的t分布,因此。OLS估计的概率收敛到但是OLS估计的样本分布不是正态分布。以下是的经验分布,该分布基于10000个观测值的回归的10000个模拟。xiN(0,1)ϵiVar(ϵi)=bb^b^估算器的QQPlot(分布未收敛至正态)

的分布不正常,尾巴太重。但是,如果将自由度增加到3,以使的第二力矩存在,那么将应用中心限制,并且您将得到: b^ϵi估算器的QQPlot(收敛到正常分布)

生成它的代码:

beta = [-4; 3.7];
n = 1e5;    
n_sim = 10000;    
for s=1:n_sim
    X = [ones(n, 1), randn(n, 1)];  
    u  = trnd(2,n,1) / 100;
    y = X * beta + u;

    b(:,s) = X \ y;
end
b = b';
qqplot(b(:,2));

1
好答案。但是以下内容实际上取决于上下文:在日常数据中,您不会遇到第4时刻不存在的病理分布。财务数据(金融资产的对数收益)通常过于冗长,以至于没有有限的第四时刻。因此,在那里对第四时刻的关注非常真实。(您可能将其添加为您的声明的括号内的反例。)此外,还有一个问题:在您的示例中,尽管没有有限的第4矩,为什么产生渐近正态性?t(3)
理查德·哈迪

1
@RichardHardy您想要,其中。您需要第四个时刻存在,并且当与不相关时,实际上是的第二个时刻。n(1nixiϵi)dN(0,Σ)Σ=E[xixiϵi2]ΣΣϵiϵi2xixi
马修·冈恩

6
  1. 这是一个充分的假设,但不是一个最小的假设[1]。在这些情况下,OLS不会产生偏差,只是不一致。当可能具有非常大的影响和/或如果您可以获得非常大的残差时,OLS的渐近性质会破坏。您可能没有遇到过Lindeberg Feller中心极限定理的正式表述,但这就是它们在第四时刻条件下要解决的问题,Lindeberg条件基本上告诉我们相同的事情:没有太大的影响点,没有太大的高杠杆率点[2]。X

  2. 当归结为实际应用时,统计的这些理论基础会引起很多混乱。没有离群值的定义,这是一个直观的概念。为了粗略地理解它,观察必须是一个高杠杆点或高影响点,例如,对于该点,删除诊断(DF beta)非常大,或者对于预测变量中的马哈拉诺比斯距离很大(单变量统计)那只是Z分数)。但是,让我们回到实际问题上:如果我对人及其家庭收入进行随机调查,并且在100人中,我抽样的人中有1个人是百万富翁,那么我最好的猜测是,百万富翁代表了1%的人口。在生物统计学讲座中,讨论并强调了这些原则,任何诊断工具本质上都是探索性的[3]。不是 “我认为不包括异常值的分析”,而是“消除一点完全改变了我的分析”。

  3. 峰度是一个定标的量,它取决于分布的第二个矩,但是这些值的有限的,非零方差的假设是默认的,因为该属性不可能在第四个矩保持,而不能在第二个矩保持。所以基本上是的,但是总的来说,我从未检查过峰度或第四时刻。我认为它们不是一种实用或直观的措施。在这一天中,如果一个人的指尖产生了直方图或散点图,则我们应该通过检查这些图来使用定性图形诊断统计数据。

[1] /math/79773/how-does-one-prove-that-lindeberg-condition-is-satisfied

[2] http://projecteuclid.org/download/pdf_1/euclid.ss/1177013818

[3] http://faculty.washington.edu/semerson/b517_2012/b517L03-2012-10-03/b517L03-2012-10-03.html


如前所述当异常值超过一个时人们对异常值的直觉就会破裂。它们不一定会在DF Beta图中脱颖而出或具有较大的z分数,因为这些统计信息本身可能会被异常值所左右。如前所述,离群值,如果不加以检查,将产生有偏差的系数,除非您删除它们或使用对其具有鲁棒性的估计技术。
2016年

1
我认为,更普遍地说,当发表意见时,您可以通过包含指向相关文献的指针来获得答案,从而使OP知道这些意见中哪一种被广泛持有。
2016年

@ user603在您的第一个评论中,我没有指出DFbetas(或任何诊断工具)是一种识别异常值的专用方法,但肯定是有用的方法。当执行半参数推理(均值模型正确)离群值时,不要偏向LS模型,除了非参数LS之外,您是否还能提供参考或示例?您的第二点评论是一个很好的评论,接下来的几分钟我将提供引用。
AdamO

您的说法“ OLS在这种情况下不存在偏差,只是不一致”是不正确的。渐近正态性需要较高的矩。在适用Kolmogorov大数定律的IID样本中,不需要它们来保持一致性。
马修·冈恩
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.