估计


14

我有一个如下的理论经济模型,

y=a+b1x1+b2x2+b3x3+u

因此,理论认为存在,和因子来估计。x1x2x3y

现在我有了真实的数据,我需要估计,,。问题在于实际数据集仅包含和数据;没有数据。所以我实际上可以拟合的模型是:b1b2b3x1x2x3

y=a+b1x1+b2x2+u
  • 可以估计这个模型吗?
  • 我会失去任何估计吗?
  • 如果我确实估计,b_2,那么b_3x_3项去哪儿?b 2 b 3 x 3b1b2b3x3
  • 它由错误项u吗?

并且我们想假设x3x1x_2不相关x2


您能否提供有关数据集的详细信息,我的意思是您的因变量和自变量和?x 1 x 2yx1x2
瓦拉

可以将其视为没有特定数据集的假设示例……
瑞奈(Renathy),

Answers:


20

您需要担心的问题称为内生性。更具体地说,这取决于在总体中是否与或。如果是,则关联的将被偏置。这是因为OLS回归方法强制残差与协变量不相关。但是,您的残差由一些不可约随机性,的,并且未观察到的(但相关)的变量,,其通过规定与相关和/或x 1 x 2 b jx3x1x2bjX Ĵ ε uixjεix3x 2x1x2。在另一方面,如果两个 与与不相关人口,那么他们的旨意不受此(他们可能会通过别的偏向,当然)偏置。计量经济学家尝试解决此问题的一种方法是使用工具变量x 2 x 3 bx1x2x3b

为了更清楚起见,我在R中编写了一个快速仿真,演示了当与不相关时,的采样分布是无偏的/以的真实值为中心。但是,在第二次运行中,请注意与不相关,但与不相关。并非巧合的是,没有偏见,但是偏见。 β 2 X 3 X 3 X 1 X 2 b 1 b 2b2β2x3x3x1x2b1b2

library(MASS)                          # you'll need this package below
N     = 100                            # this is how much data we'll use
beta0 = -71                            # these are the true values of the
beta1 = .84                            # parameters
beta2 = .64
beta3 = .34

############## uncorrelated version

b0VectU = vector(length=10000)         # these will store the parameter
b1VectU = vector(length=10000)         # estimates
b2VectU = vector(length=10000)
set.seed(7508)                         # this makes the simulation reproducible

for(i in 1:10000){                     # we'll do this 10k times
  x1 = rnorm(N)
  x2 = rnorm(N)                        # these variables are uncorrelated
  x3 = rnorm(N)
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
  mod = lm(y~x1+x2)                    # note all 3 variables are relevant
                                       # but the model omits x3
  b0VectU[i] = coef(mod)[1]            # here I'm storing the estimates
  b1VectU[i] = coef(mod)[2]
  b2VectU[i] = coef(mod)[3]
}
mean(b0VectU)  # [1] -71.00005         # all 3 of these are centered on the
mean(b1VectU)  # [1] 0.8399306         # the true values / are unbiased
mean(b2VectU)  # [1] 0.6398391         # e.g., .64 = .64

############## correlated version

r23 = .7                               # this will be the correlation in the
b0VectC = vector(length=10000)         # population between x2 & x3
b1VectC = vector(length=10000)
b2VectC = vector(length=10000)
set.seed(2734)

for(i in 1:10000){
  x1 = rnorm(N)
  X  = mvrnorm(N, mu=c(0,0), Sigma=rbind(c(  1, r23),
                                         c(r23,   1)))
  x2 = X[,1]
  x3 = X[,2]                           # x3 is correated w/ x2, but not x1
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
                                       # once again, all 3 variables are relevant
  mod = lm(y~x1+x2)                    # but the model omits x3
  b0VectC[i] = coef(mod)[1]
  b1VectC[i] = coef(mod)[2]            # we store the estimates again
  b2VectC[i] = coef(mod)[3]
}
mean(b0VectC)  # [1] -70.99916         # the 1st 2 are unbiased
mean(b1VectC)  # [1] 0.8409656         # but the sampling dist of x2 is biased
mean(b2VectC)  # [1] 0.8784184         # .88 not equal to .64

因此,您能再说明一下吗?如果我们假设x3与$ x_1和x2不相关,会发生什么?那么,如果我估计y = a + b1x1 + b2x2 + u会发生什么?
瑞奈(Renathy),

1
b x 3b3x3将以任何一种方式合并到残差中,但是如果它在总体中不相关,则您的其他将不会由于的不存在而受到偏见,但是,如果它不是不相关的,那么它们将是不相关的。bx3
gung-恢复莫妮卡

要更清楚地说明这一点:如果与或不相关,则可以。x3x1x2
gung-恢复莫妮卡


3

让我们用几何术语来思考。想象一个“球”,一个球的表面。它描述为。现在,如果具有x 2y 2z 2的值,并且具有r 2的测量值, 则可以确定系数“ a”,“ b”和“ c”。(您可以将其称为椭圆形,但将其称为球更简单。)r2=ax2+by2+cz2+ϵx2y2z2r2

如果只有 y 2项,则可以画一个圆。除了定义球的表面之外,您将描述一个实心圆。方程式你代替配合是- [R 2一个X 2 + b ý 2 + εx2y2r2ax2+by2+ϵ

您正在将“球”(无论其形状)投影到圆的表达式中。它可能是对角线定位的“球”,形状更像缝纫针,因此分量彻底破坏了两个轴的估计。它可能是一个看起来像被压碎的m&m的球,其中硬币轴分别为“ x”和“ y”,并且投影为零。没有“ z ”信息,您将无法知道它是哪个。zz

最后一段谈论的是“纯信息”案,没有说明噪音。实际测量中的信号带有噪声。沿与轴对齐的周界噪声将对您的配合产生更大的影响。即使您拥有相同数量的样本,您在参数估计中的不确定性也会更大。如果它是与这种简单的线性轴定向情况不同的方程式,则情况可能会变得“ 梨形 ”。您当前的方程是平面形状的,因此z数据可能没有遍历整个球的表面而没有边界(投影),因此投影可能是一个严重的问题。

可以建模吗?那是一个判断电话。了解问题细节的专家可能会回答。如果他们远离问题,我不知道是否有人可以给出很好的答案。

您确实会失去一些好处,包括参数估计的确定性以及所转换模型的性质。

的估计消失在ε和其他参数估计中。它取决于整个系统,取决于整个系统。b3


1
我在这里不能真正听从您的说法,也不确定是否正确。例如,球体的表面积是4πr2。除此之外,我不确定这与问题有何关系。关键问题是被忽略的变量是否与模型中的变量相关。我不确定您在说什么来解决这个问题。(为清楚起见,我通过一个简单的R模拟来演示这一点。)
gung-恢复莫妮卡

ung 我给出了一个最佳情况的答案范围->圆,并表明它以意想不到的方式改变了模型。我喜欢您的答案的技术精巧,但不确信请求者能够使用我们的任何一个答案。所述是一个椭球3名维表面的方程,球体是它的一个情况。我假设“真实模型”是球体的表面,但是噪声破坏的测量值在该表面上。抛掉一维可以得到的数据最多只能是实心圆,而不是球面。f(x,y,z)
EngrStudent-恢复莫妮卡

我无法听从您的说法,因为我看不到任何与“实心方形”相对应的内容。
ub

0

其他答案虽然没有错,但使问题变得更加复杂。

如果x 1x 2确实不相关(并且真实关系已指定),那么您可以估计第二个方程式而不会出现问题。正如你提到的,β 3 X 3将被(新)误差项被吸收。只要所有其他OLS假设均成立,OLS估计将是无偏见的。x3x1x2β3x3

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.