Questions tagged «endogeneity»

3
何时使用固定效果与使用集群SE?
假设您具有单个数据横截面,其中个人位于组内(例如,学校内的学生),并且您希望估计以下形式的模型:Y_i = a + B*X_i其中X是个人水平特征和a常数的向量。 在这种情况下,假设未观察到的组间异质性会使您的点估计B及其SE产生偏差,因为它与您所关注的独立变量相关。 一种选择是按小组(学校)对SE进行聚类。另一个是要包括FE组。另一个是同时使用。在这些选项之间进行选择时应该考虑什么?尤其不清楚为什么要按组将SE聚类并使用FE组。在我的特定情况下,我有35个小组,每个小组中有5,000个人。我已经按照本pdf中的讨论进行了讨论,但是对于为什么以及何时可以同时使用群集SE和固定效果尚不清楚。 (请讨论集群式SE与FE的优缺点,而不是建议我只采用多层次模型。)

3
两阶段模型:Heckman模型(用于处理样本选择)和工具变量(用于处理内生性)之间的差异
我试图弄清样本选择和内生性之间的差异,进而弄清Heckman模型(处理样本选择)与工具变量回归(处理内生性)之间的区别。 说样品选择是内生性的一种特定形式是正确的,内生性变量是被治疗的可能性吗? 另外,在我看来,Heckman模型和IV回归都是两个阶段的模型,其中第一阶段预测了被治疗的可能性-我认为,根据经验,目标和假设,他们必须有所不同,但是如何?

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

3
估计
我有一个如下的理论经济模型, y=a+b1x1+b2x2+b3x3+uy=a+b1x1+b2x2+b3x3+u y = a + b_1x_1 + b_2x_2 + b_3x_3 + u 因此,理论认为存在,和因子来估计。x1x1x_1x2x2x_2x3x3x_3yyy 现在我有了真实的数据,我需要估计,,。问题在于实际数据集仅包含和数据;没有数据。所以我实际上可以拟合的模型是:b1b1b_1b2b2b_2b3b3b_3x1x1x_1x2x2x_2x3x3x_3 y=a+b1x1+b2x2+uy=a+b1x1+b2x2+uy = a + b_1x_1 + b_2x_2 + u 可以估计这个模型吗? 我会失去任何估计吗? 如果我确实估计,b_2,那么b_3x_3项去哪儿?b 2 b 3 x 3b1b1b_1b2b2b_2b3x3b3x3b_3x_3 它由错误项uuu吗? 并且我们想假设x3x3x_3与x1x1x_1和x_2不相关x2x2x_2。

2
工具与变量之间的因果关系方向是否重要?
关于因果关系(->)的工具变量的标准方案是: Z -> X -> Y 其中Z是工具,X是内生变量,Y是响应。 以下关系是否可能: Z <- X ->Y Z <-> X ->Y 也有效吗? 虽然满足了工具和变量之间的相关性,但在这种情况下我如何考虑排除限制? 注意:此符号<->不是明确的,可能导致对该问题的不同理解。答案仍然突出了这个问题,并用它来显示问题的重要方面。阅读时,请谨慎对待问题的这一部分。

1
2SLS与二元内生变量的一致性
我已经读到2SLS估计器即使与二进制内生变量(http://www.stata.com/statalist/archive/2004-07/msg00699.html)仍然保持一致。在第一阶段,将运行概率处理模型,而不是线性模型。 有没有正式的证据表明即使第一阶段是概率模型或对数模型,2SLS仍然是一致的? 如果结果也是二进制,该怎么办?我知道如果我们有二进制结果和二进制内生变量(第一和第二阶段都是二进制概率/逻辑模型),则模仿2SLS方法将产生不一致的估计。是否有任何正式的证据?Wooldridge的计量经济学书进行了一些讨论,但我认为没有严格的证据来证明这种不一致。 data sim; do i=1 to 500000; iv=rand("normal",0,1); x2=rand("normal",0,1); x3=rand("normal",0,1); lp=0.5+0.8*iv+0.5*x2-0.2*x3; T=rand("bernoulli",exp(lp)/(1+exp(lp))); Y=-0.8+1.2*T-1.3*x2-0.8*x3+rand("normal",0,1); output; end; run; ****1st stage: logit model ****; ****get predicted values ****; proc logistic data=sim descending; model T=IV; output out=pred1 pred=p; run; ****2nd stage: ols model with predicted values****; proc reg data=pred1; model y=p; run; …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.