我有一个如下的理论经济模型,
因此,理论认为存在,和因子来估计。
现在我有了真实的数据,我需要估计,,。问题在于实际数据集仅包含和数据;没有数据。所以我实际上可以拟合的模型是:
- 可以估计这个模型吗?
- 我会失去任何估计吗?
- 如果我确实估计,b_2,那么b_3x_3项去哪儿?b 2 b 3 x 3
- 它由错误项吗?
并且我们想假设与和x_2不相关。
我有一个如下的理论经济模型,
因此,理论认为存在,和因子来估计。
现在我有了真实的数据,我需要估计,,。问题在于实际数据集仅包含和数据;没有数据。所以我实际上可以拟合的模型是:
并且我们想假设与和x_2不相关。
Answers:
您需要担心的问题称为内生性。更具体地说,这取决于在总体中是否与或。如果是,则关联的将被偏置。这是因为OLS回归方法强制残差与协变量不相关。但是,您的残差由一些不可约随机性,的,并且未观察到的(但相关)的变量,,其通过规定的与相关和/或x 1 x 2 b jX Ĵ ε 我x 2。在另一方面,如果两个 与与不相关人口,那么他们的旨意不受此(他们可能会通过别的偏向,当然)偏置。计量经济学家尝试解决此问题的一种方法是使用工具变量。 x 2 x 3 b
为了更清楚起见,我在R中编写了一个快速仿真,演示了当与不相关时,的采样分布是无偏的/以的真实值为中心。但是,在第二次运行中,请注意与不相关,但与不相关。并非巧合的是,没有偏见,但是有偏见。 β 2 X 3 X 3 X 1 X 2 b 1 b 2
library(MASS) # you'll need this package below
N = 100 # this is how much data we'll use
beta0 = -71 # these are the true values of the
beta1 = .84 # parameters
beta2 = .64
beta3 = .34
############## uncorrelated version
b0VectU = vector(length=10000) # these will store the parameter
b1VectU = vector(length=10000) # estimates
b2VectU = vector(length=10000)
set.seed(7508) # this makes the simulation reproducible
for(i in 1:10000){ # we'll do this 10k times
x1 = rnorm(N)
x2 = rnorm(N) # these variables are uncorrelated
x3 = rnorm(N)
y = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
mod = lm(y~x1+x2) # note all 3 variables are relevant
# but the model omits x3
b0VectU[i] = coef(mod)[1] # here I'm storing the estimates
b1VectU[i] = coef(mod)[2]
b2VectU[i] = coef(mod)[3]
}
mean(b0VectU) # [1] -71.00005 # all 3 of these are centered on the
mean(b1VectU) # [1] 0.8399306 # the true values / are unbiased
mean(b2VectU) # [1] 0.6398391 # e.g., .64 = .64
############## correlated version
r23 = .7 # this will be the correlation in the
b0VectC = vector(length=10000) # population between x2 & x3
b1VectC = vector(length=10000)
b2VectC = vector(length=10000)
set.seed(2734)
for(i in 1:10000){
x1 = rnorm(N)
X = mvrnorm(N, mu=c(0,0), Sigma=rbind(c( 1, r23),
c(r23, 1)))
x2 = X[,1]
x3 = X[,2] # x3 is correated w/ x2, but not x1
y = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
# once again, all 3 variables are relevant
mod = lm(y~x1+x2) # but the model omits x3
b0VectC[i] = coef(mod)[1]
b1VectC[i] = coef(mod)[2] # we store the estimates again
b2VectC[i] = coef(mod)[3]
}
mean(b0VectC) # [1] -70.99916 # the 1st 2 are unbiased
mean(b1VectC) # [1] 0.8409656 # but the sampling dist of x2 is biased
mean(b2VectC) # [1] 0.8784184 # .88 not equal to .64
让我们用几何术语来思考。想象一个“球”,一个球的表面。它描述为。现在,如果具有x 2,y 2,z 2的值,并且具有r 2的测量值, 则可以确定系数“ a”,“ b”和“ c”。(您可以将其称为椭圆形,但将其称为球更简单。)
如果只有 和y 2项,则可以画一个圆。除了定义球的表面之外,您将描述一个实心圆。方程式你代替配合是- [R 2 ≤ 一个X 2 + b ý 2 + ε。
您正在将“球”(无论其形状)投影到圆的表达式中。它可能是对角线定位的“球”,形状更像缝纫针,因此分量彻底破坏了两个轴的估计。它可能是一个看起来像被压碎的m&m的球,其中硬币轴分别为“ x”和“ y”,并且投影为零。没有“ z ”信息,您将无法知道它是哪个。
最后一段谈论的是“纯信息”案,没有说明噪音。实际测量中的信号带有噪声。沿与轴对齐的周界噪声将对您的配合产生更大的影响。即使您拥有相同数量的样本,您在参数估计中的不确定性也会更大。如果它是与这种简单的线性轴定向情况不同的方程式,则情况可能会变得“ 梨形 ”。您当前的方程是平面形状的,因此z数据可能没有遍历整个球的表面而没有边界(投影),因此投影可能是一个严重的问题。
可以建模吗?那是一个判断电话。了解问题细节的专家可能会回答。如果他们远离问题,我不知道是否有人可以给出很好的答案。
您确实会失去一些好处,包括参数估计的确定性以及所转换模型的性质。
的估计消失在ε和其他参数估计中。它取决于整个系统,取决于整个系统。