Questions tagged «instrumental-variables»

当标准回归方法产生偏差和不一致的估计时,工具变量(IV)用于在存在内生性的情况下对观测数据进行因果推论。

2
在没有仪器的情况下,关于观测数据的模型我们能说些什么?
过去,我曾在多个领域对发表的论文提出过一些问题,这些领域在观测数据(即非受控实验产生的数据)上使用了回归(以及相关模型,例如面板模型或GLM) ,在许多情况下-但并非总是-随时间推移观察到的数据),但没有尝试引入工具变量。 作为回应,我提出了许多批评(例如,当重要变量可能缺失时描述带有偏见的问题),但是由于此处的其他人无疑比我对这方面的知识要了解得多,我想问一下: 在这种情况下,试图得出有关关系的结论(特别是但不限于因果结论)有哪些主要问题/后果? 在没有仪器的情况下,适合此类模型的研究能做些有用的事情吗? 关于这种建模的问题有哪些好的参考文献(书或论文)(最好具有明显的非技术动机来进行后果分析,因为通常提出问询的人具有各种背景,有些人没有很多统计资料)一篇论文?用仪器讨论预防措施/问题也将很有用。 (有关工具变量的基本参考资料在此处,但是如果您要在其中添加任何内容,那也会有所帮助。) 指向发现和使用工具的良好实践示例的指针将是一个好处,但不是这个问题的中心。 [在出现此类问题时,我可能会在这里指出其他任何好的答案。我可能会添加一两个示例。]

2
为什么因变量中的测量误差不会使结果偏倚?
当自变量存在测量误差时,我知道结果将偏向于0。当因变量测量有误差时,他们说这只会影响标准误差,但这对我来说没有多大意义,因为我们估计的影响不是对原始变量的影响,而是对其他一些加上误差的影响。那么这如何不影响估计呢?在这种情况下,我还可以使用工具变量来消除此问题吗?XXXYYYYYY

1
2SLS与二元内生变量的一致性
我已经读到2SLS估计器即使与二进制内生变量(http://www.stata.com/statalist/archive/2004-07/msg00699.html)仍然保持一致。在第一阶段,将运行概率处理模型,而不是线性模型。 有没有正式的证据表明即使第一阶段是概率模型或对数模型,2SLS仍然是一致的? 如果结果也是二进制,该怎么办?我知道如果我们有二进制结果和二进制内生变量(第一和第二阶段都是二进制概率/逻辑模型),则模仿2SLS方法将产生不一致的估计。是否有任何正式的证据?Wooldridge的计量经济学书进行了一些讨论,但我认为没有严格的证据来证明这种不一致。 data sim; do i=1 to 500000; iv=rand("normal",0,1); x2=rand("normal",0,1); x3=rand("normal",0,1); lp=0.5+0.8*iv+0.5*x2-0.2*x3; T=rand("bernoulli",exp(lp)/(1+exp(lp))); Y=-0.8+1.2*T-1.3*x2-0.8*x3+rand("normal",0,1); output; end; run; ****1st stage: logit model ****; ****get predicted values ****; proc logistic data=sim descending; model T=IV; output out=pred1 pred=p; run; ****2nd stage: ols model with predicted values****; proc reg data=pred1; model y=p; run; …

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

3
随机分配:为什么要打扰?
随机分配很有价值,因为它可以确保治疗与潜在结果的独立性。这就是如何导致对平均治疗效果的无偏估计。但是其他分配方案也可以系统地确保治疗与潜在结果的独立性。那么为什么我们需要随机分配呢?换句话说,与非随机分配方案相比,随机分配又有什么优点呢? 令为治疗分配的向量,其中每个元素为0(未分配给治疗的单位)或1(分配给治疗的单位)。在一个JASA制品,安格里斯特,Imbens,和Rubin(1996,446-47)说治疗分配是随机的,如果表示所有\ mathbf {c}和\ mathbf {c'},使得\ iota ^ T \ mathbf {c} = \ iota ^ T \ mathbf {c'},其中\ iota是一个所有元素等于1的列向量。ZZ\mathbf{Z}ZiZiZ_iPr(Z=c)=Pr(Z=c′)Pr(Z=c)=Pr(Z=c′)\Pr(\mathbf{Z} = \mathbf{c}) = \Pr(\mathbf{Z} = \mathbf{c'})cc\mathbf{c}c′c′\mathbf{c'}ιTc=ιTc′ιTc=ιTc′\iota^T\mathbf{c} = \iota^T\mathbf{c'}ιι\iota 换句话说,如果包括m个治疗分配的任何分配向量与包括m个治疗分配的任何其他向量一样有可能,则分配ZiZiZ_i是随机的。mmmmmm 但是,为了确保潜在结果与治疗分配的独立性,足以确保研究中的每个单元都具有相等的分配给治疗的可能性。即使大多数治疗分配向量的选择概率为零,也很容易发生这种情况。即,即使在非随机分配下也可能发生。 这是一个例子。我们想用四个单元运行一个实验,其中两个单元将被正确处理。有六个可能的分配向量: 1100 1010 1001 0110 0101 0011 每个数字中的第一个数字表示是否已治疗第一个单元,第二个数字表示是否已治疗第二个单元,依此类推。 假设我们进行了一个实验,其中排除了赋值向量3和4的可能性,但是其中每个其他向量的选择机会均等(25%)。从AIR的意义上讲,该方案不是随机分配。但可以预料的是,这将导致平均治疗效果的无偏估计。那绝不是偶然的。任何给予受试者相等分配给治疗可能性的分配方案,将允许对ATE进行无偏估计。 那么:为什么我们需要AIR的随机分配?我的论点植根于随机推理。如果有人以基于模型的推理来思考,那么AIR的定义似乎更可辩护吗?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.