Questions tagged «instrumental-variables»

当标准回归方法产生偏差和不一致的估计时,工具变量(IV)用于在存在内生性的情况下对观测数据进行因果推论。



3
两阶段模型:Heckman模型(用于处理样本选择)和工具变量(用于处理内生性)之间的差异
我试图弄清样本选择和内生性之间的差异,进而弄清Heckman模型(处理样本选择)与工具变量回归(处理内生性)之间的区别。 说样品选择是内生性的一种特定形式是正确的,内生性变量是被治疗的可能性吗? 另外,在我看来,Heckman模型和IV回归都是两个阶段的模型,其中第一阶段预测了被治疗的可能性-我认为,根据经验,目标和假设,他们必须有所不同,但是如何?

3
IV分位数回归文献
在过去的几个月里,我为阅读今年夏天的硕士论文集中阅读了分位数回归。具体来说,我已经阅读了罗杰·科恩克(Roger Koenker)2005年有关该主题的大部分书籍。现在,我想将现有知识扩展到允许工具变量(IV)的分位数回归技术。这似乎是一个活跃的研究领域,并且正在迅速发展。 也许有人可以建议我: 有关IV分位数回归的论文或其他文献 这些不同的统计技术的简要概述 不同技术的利弊 我主要是在寻找文学知识,以使我入门并全面了解现有知识。因此,第一点很重要。第二和第三将是很好!我的兴趣主要在于横截面方法,但也欢迎使用面板方法。 提前致谢。

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
2SLS,但第二级Probit
我正在尝试使用工具变量分析来推断观测数据的因果关系。 我遇到了两阶段最小二乘(2SLS)回归,这很可能可以解决我研究中的内生性问题。但是,我希望第一阶段成为OLS,第二阶段成为2SLS中的Probit。根据我的阅读和搜索,我已经看到研究人员使用2SLS或第一阶段的Probit和第二阶段的OLS,但并非相反,这正是我想要达到的目标。 我目前正在使用Stata,并且Stata中的ivreg命令用于直接2SLS。


6
确定状况“ B”对治疗“ A”的益处时,有效性和功效之间有何区别?
这个问题的背景是在健康框架内,即在疾病治疗中寻找一种或多种疗法。看起来,即使是受人尊敬的研究人员也可以将术语功效和效力混淆使用,这两个术语可以互换使用。 如何以一种有助于消除困惑的方式来考虑功效与功效? 哪种类型的研究设计最适合确定两种类型的结果? 有什么权威的期刊出版物,书籍或网络词典对我有帮助吗?

1
刚刚确定的2SLS中位数是无偏的吗?
在《最无害的计量经济学:经验主义者的同伴》中(Angrist and Pischke,2009:第209页),我读到以下内容: (...)实际上,刚刚确定的2SLS(即简单的Wald估计量)几乎是无偏的。这很难正式显示,因为刚刚确定的2SLS没有任何时刻(即,采样分布有粗尾)。但是,即使仪器较弱,刚刚确定的2SLS也会大致居中。因此,我们说刚刚确定的2SLS是中值无偏的。(...) 虽然作者说是刚刚确定的2SLS是中位数,不带偏见,他们既没有证实,也没有提供一个参考的证据。他们在第213页再次提到了该命题,但没有提及证明。另外,我在麻省理工学院第22页的关于工具变量的讲义中找不到提出这一主张的动机。 原因可能是该提议是错误的,因为他们在博客的注释中拒绝了该提议。但是,他们写道,刚刚确定的2SLS 近似为中值。他们使用一个小型的蒙特卡洛实验来激发这一点,但没有提供分析证明或与近似值相关的误差项的封闭式表达。无论如何,这是作者对密歇根州立大学教授Gary Solon的答复,他评论说刚刚确定的2SLS 并非中性的。 问题1:如何证明刚刚确定的2SLS 并不像Gary Solon所说的那样是中性的? 问题2:如Angrist和Pischke所论,您如何证明刚刚确定的2SLS 近似中值无偏? 对于问题1,我正在寻找一个反例。对于问题2,我(主要)是在寻找证明或参考证明。 在这种情况下,我也在寻找中值无偏差的正式定义。我理解这个概念如下:估计器θ(X 1 :Ñ)的θ基于某些设定的X 1 :ñ的Ñ随机变量是中值无偏为θ当且仅当的分布θ(X 1 :n)具有中值θ。θ^(X1:n)θ^(X1:n)\hat{\theta}(X_{1:n})θθ\thetaX1:nX1:nX_{1:n}nnnθθ\thetaθ^(X1:n)θ^(X1:n)\hat{\theta}(X_{1:n})θθ\theta 笔记 在刚刚确定的模型中,内生回归变量的数量等于工具数量。 {YX=Xβ+Wγ+u=Zδ+Wζ+v(1)(1){Y=Xβ+Wγ+uX=Zδ+Wζ+v\begin{cases} Y&=X\beta+W\gamma+u \\ X&=Z\delta+W\zeta+v \end{cases}\tag{1}XXXk×n+1k×n+1k\times n+1kkkk×n+1k×n+1k\times n+1ZZZWWWuuuvvv ββ\beta(1)(1)(1)XXXZZZWWWX^X^\hat{X}YYYX^X^\hat{X}WWWX^X^\hat{X}ββ\beta yi=α+βxi+uiyi=α+βxi+uiy_i=\alpha+\beta x_i+u_ixixix_iziziz_iββ\betaβ^2SLS=sZYsZX,(2)(2)β^2SLS=sZYsZX,\hat{\beta}^{\text{2SLS}}=\frac{s_{ZY}}{s_{ZX}}\tag{2},sABsABs_{AB}AAABBB(2)(2)(2)β^2SLS=∑i(yi−y¯)zi∑i(xi−x¯)zi=β+∑i(ui−u¯)zi∑i(xi−x¯)zi(3)(3)β^2SLS=∑i(yi−y¯)zi∑i(xi−x¯)zi=β+∑i(ui−u¯)zi∑i(xi−x¯)zi\hat{\beta}^{\text{2SLS}}=\frac{\sum_i(y_i-\bar{y})z_i}{\sum_i(x_i-\bar{x})z_i}=\beta+\frac{\sum_i(u_i-\bar{u})z_i}{\sum_i(x_i-\bar{x})z_i}\tag{3}y¯=∑iyi/ny¯=∑iyi/n\bar{y}=\sum_iy_i/nx¯=∑ixi/nx¯=∑ixi/n\bar{x}=\sum_i x_i/nu¯=∑iui/nu¯=∑iui/n\bar{u}=\sum_i u_i/nnnn 我进行了文献搜索,使用“正当识别”和“中位数无偏”一词来查找回答问题1和2的参考文献(请参见上文)。我什么都没找到。我发现(见下文)的所有文章都提到Angrist和Pischke(2009:第209、213页)时指出刚确定的2SLS是中值无偏的。 Jakiela,P.,Miguel,E.,&Te Velde,VL(2015)。您已经赢得了它:估算人力资本对社会偏好的影响。实验经济学,18(3),385-407。 An,W.(2015年)。工具变量估计社交网络中的对等效应。社会科学研究,50,382-394。 Vermeulen,W.和Van Ommeren,J.(2009)。土地利用规划会影响区域经济吗?同时分析了荷兰的住房供应,内部移民和当地就业增长。住房经济学杂志,18(4),294-310。 Aidt,TS,&Leon,G.(2016年)。民主的机会之窗:撒哈拉以南非洲骚乱的证据。冲突解决杂志,60(4),694-717。

1
如何在Stata中使用工具化交互作用项进行工具变量回归?
我在Stata语法上有问题。我需要进行以下回归: y=ax+bz+c(xz)+ey=ax+bz+c(xz)+ey = ax + bz + c(xz) + e 其中和均已检测,并且交互项使用和的检测值。xxxzzzxzxzxzxxxzzz 仅生成和的预测值并将其用作回归变量会产生不正确的标准误差。xxxzzz 编辑:我还需要只对其中一个变量进行检测,并将其中一个变量作为交互项进行类似的回归。


3
为什么要使用滞后DV作为工具变量?
我继承了一些数据分析代码,尽管我不是计量经济学家,但我一直难以理解。一个模型使用以下Stata命令运行工具变量回归 ivreg my_dv var1 var2 var3 (L.my_dv = D2.my_dv D3.my_dv D4.my_dv) 该数据集是一个针对该组变量具有多个顺序观察值的面板。 为什么此代码将DV的滞后值用作工具?据我了解(从深入研究旧教科书中),当由于回归变量与误差项相关而出现问题时,使用了IV估计。但是,没有提到选择DV的滞后作为工具。 此行代码的注释中提到“因果关系”。欢迎大家弄清楚这里的目标是什么。

1
工具变量如何解决选择偏见?
我想知道工具变量如何解决回归中的选择偏差。 这是我正在尝试的示例:在“ 大多数无害计量经济学”中,作者讨论了与服役和晚年收入有关的IV回归。问题是,“服兵役会增加还是减少未来的收入?” 他们在越南战争的背景下调查了这个问题。我知道不能随机分配兵役,这是因果推理的问题。 为了解决这个问题,研究人员使用了征兵资格(如“您的征兵号码被称为”)作为实际服兵役的工具。这是有道理的:越南选秀大会随机分配了年轻的美国士兵入伍(从理论上讲,选秀者是否真的对我的问题有所帮助)。我们的其他IV条件似乎是可靠的:征兵资格和实际服兵役之间有着密切的正相关关系。 这是我的问题。似乎您会出现自我选择偏见:也许较富有的孩子可以退出越南服务,即使他们的选秀号码被打电话了。(如果实际并非如此,为我的问题,让我们假装)。如果这种自我选择在我们的样本中造成系统性偏见,那么我们的工具变量如何解决这一偏见?我们是否必须将推论范围缩小到“无法逃脱草案的人的类型?” 还是IV以某种方式挽救了我们推论的那一部分?如果有人能解释它是如何工作的,我将非常感谢。

2
工具与变量之间的因果关系方向是否重要?
关于因果关系(->)的工具变量的标准方案是: Z -> X -> Y 其中Z是工具,X是内生变量,Y是响应。 以下关系是否可能: Z <- X ->Y Z <-> X ->Y 也有效吗? 虽然满足了工具和变量之间的相关性,但在这种情况下我如何考虑排除限制? 注意:此符号<->不是明确的,可能导致对该问题的不同理解。答案仍然突出了这个问题,并用它来显示问题的重要方面。阅读时,请谨慎对待问题的这一部分。

1
如何用二元工具和二元内生变量解释工具变量回归中的第二阶段系数?
(相当长的帖子,对不起。它包含许多背景信息,请随时跳到底部的问题。) 简介:我正在做一个项目,我们试图确定二进制内生变量对连续结果。我们提出了一个工具,我们坚信它是随机分配的。x1x1x_1yyyz1z1z_1 数据:数据本身是一个面板结构,其中约34,000个观测值分布在1000个单位和约56个时间段内。对于大约700个(2%​​)的观测值,取值为1;对于大约3000个(9%),取值为1 。111个(0.33%)观测值在和上均得分为1,如果观测值在上也得分为1,则其在上得分为1的可能性是原来的两倍。x1x1x_1z1z1z_1z1z1z_1x1x1x_1x1x1x_1z1z1z_1 估计:我们通过Stata的ivreg2-过程估计以下2SLS模型: x1=π0+π1z1+Zπ+vx1=π0+π1z1+Zπ+vx_1 = \pi_0 + \pi_1z_1 + \mathbf{Z}\mathbf{\pi} + v y=β0+β1x∗1+Zβ+uy=β0+β1x1∗+Zβ+uy = \beta_0 + \beta_1 x_1^* + \mathbf{Z}\mathbf{\beta} + u 其中是其他外生变量的向量, 是从第一阶段开始的的预测值,而和是误差项。ZZZx∗1x1∗x_1^*x1x1x_1uuuvvv 结果:一切似乎都运行良好;的估计在第一阶段非常重要,而的估计在第二阶段非常重要。所有符号均符合预期,包括其他外生变量的符号。但是,问题在于(感兴趣的系数)的估计值太大了(或者至少根据我们一直在解释它的方式),这令人难以置信。π1π1\pi_1β1β1\beta_1β1β1\beta_1 yyy范围为2到26,平均值和中位数为17,但是的估计值范围为30到40(取决于规格)!β1β1\beta_1 弱IV:我们的第一个想法是这是由于乐器太弱所致。就是说,它与内生变量之间的关系不大,但事实并非如此。为了检查该仪器的弱点,我们使用Finlay,Magnusson和Schaffer的weakiv-package,因为它提供的测试对于违反假设的情况很健壮(在此处具有相关性,因为我们拥有面板数据并将我们的SE聚类在单位级别)。i.i.d.i.i.d.i.i.d. 根据他们的AR测试,第二阶段系数的95%置信区间的下限在16到29之间(再次取决于规格)。对于所有接近零的值,拒绝概率实际上为1。 有影响的观察结果: 我们尝试估计模型,其中每个单元都被单独删除,每个观察值都被单独删除,并且单元簇被删除。没有真正的改变。 提议的解决方案:有人建议我们不应该以原始度量(0-1)来总结被测量的估计效果,而应该以其预测版本的度量来总结。范围是-0.01至0.1,平均值和中位数约为0.02,SD约为0.018。如果我们通过的一个SD增加来总结的估计效果,那将是 (其他规范给出的结果几乎相同)。这将是更合理的方法(但仍然很重要)。似乎是完美的解决方案。除了我从未见过有人这样做;每个人似乎都只是使用原始内生变量的度量来解释第二阶段系数。x1x1x_1x∗1x1∗x_1^*x1x1x_1x∗1x1∗x_1^*0.018∗30=0.540.018∗30=0.540.018*30 = 0.54 问题:在IV模型中,使用预测变量的度量来总结内生变量增加的估计效果(实际上是LATE)是否正确?在我们的案例中,该指标是预测概率。 注意:即使我们有一个二进制内生变量(使第一阶段成为LPM),我们仍使用2SLS。遵循Angrist&Krueger(2001):“仪器变量与识别:从供需到自然实验”),我们还尝试了Adams,Almeida和Ferreira(2009)中使用的三阶段程序:了解创始人-首席执行官与公司绩效之间的关系”。后一种方法由一个概率模型和一个2SLS组成,产生的系数更小且更合理,但是如果以0-1度量(大约9-10)进行解释,它们仍然很大。手动计算得到的结果与Cerulli ivtreatreg中的probit-2sls-option的结果相同。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.