Questions tagged «causality»

因果关系。

1
我应该知道哪些因果理论?
作为应用统计学家/计量经济学家,我应该知道哪种因果关系理论方法? 我知道(一点点) Neyman–Rubin因果模型(以及Roy,Haavelmo等) 珍珠的因果关系工作 格兰杰因果关系(尽管较少以治疗为导向) 我想念或应该了解哪些概念? 相关:哪些理论是机器学习因果关系的基础? 我已阅读这些有趣的问题和答案(1,2,3),但我认为这是一个不同的问题。我很惊讶地发现,例如《统计学习要素》中没有提到“因果关系” 。

1
解释格兰杰因果关系检验的结果
我正在尝试对格兰杰因果关系进行自我教育。我已经阅读了该网站上的帖子以及在线上的几篇好文章。我还遇到了一个非常有用的工具,即“双变量Granger因果关系-免费统计计算器”,该工具可让您输入时间序列并计算Granger Stats。下面是站点中包含的示例数据的输出。我在解释结果方面也很努力。 我的问题: 我的解释方向正确吗? 我忽略了哪些关键见解? 另外,CCF图表的含义和解释是什么?(我假设CCF是互相关的。) 这是我已经解释的结果和图: Summary of computational transaction Raw Input view raw input (R code) Raw Output view raw output of R engine Computing time 2 seconds R Server 'Herman Ole Andreas Wold' @ wold.wessa.net Granger Causality Test: Y = f(X) Model Res.DF Diff. DF F p-value …

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

3
了解因果贝叶斯网络中的d分离理论
我试图了解因果贝叶斯网络中的d-分离逻辑。我知道算法的工作原理,但我不完全理解为什么 “信息流”如算法中所述工作。 例如,在上图中,让我们以为我们只有X,没有观察到其他变量。然后根据d分离的规则,信息从X流向D: X影响A,这是P(A )≠ P(A | X)P(一种)≠P(一种|X)P(A)\neq P(A|X)。可以,因为A导致X,并且如果我们知道X的影响,那么这会影响我们对原因A的信念。信息流。 X影响B,即P(B )≠ P(B | X)P(乙)≠P(乙|X)P(B)\neq P(B|X)。这是可以的,因为由于我们对X的了解而改变了A,所以A处的更改也会影响我们对其原因B的信念。 X影响C,即。之所以可以,是因为我们知道B受其间接效应X的偏见,并且由于B受X的偏见,这将影响B的所有直接和间接影响。C是B的直接效应,它受我们对X的了解的影响。P(C)≠ P(C| X)P(C)≠P(C|X)P(C)\neq P(C|X) 好了,到目前为止,对我来说一切都很好,因为信息流是根据直观的因果关系发生的。但是在这种方案中,我没有得到所谓的“ V型结构”或“对撞机”的特殊行为。根据d-分离理论,B和D是上图中C的常见原因,它表示,如果我们未观察到C或其任何后代,则来自X的流量信息将在C处阻塞。 ,但是我的问题是为什么? 从上面的三个步骤开始,从X开始,我们看到C受关于X的知识的影响,并且信息流根据因果关系发生。d-分离理论说,由于没有观察到C,所以我们不能从C转到D。但是我认为,既然我们知道C是有偏见的,而D是C的原因,那么D也应该受到影响,而理论却相反。我显然在思维模式中缺少某些东西,但看不到它是什么。 因此,我需要一个解释,说明如果没有观察到C,为什么信息流会阻塞在C处。


1
平均和边缘治疗效果之间的差异
我一直在阅读一些论文,但对平均治疗效果(ATE)和边际治疗效果(MTE)的具体定义不清楚。他们是一样的吗? 根据奥斯丁 ... 条件效应是在受试者水平上将受试者从未治疗转移到已治疗的平均效应。来自多变量回归模型的治疗分配指标变量的回归系数是对条件或调整后效应的估计。相反,边际效应是在整个人口水平上将整个人口从未治疗转移到已治疗的平均效应[10]。线性处理效果(均值差异和比例差异)是可折叠的:条件和边际处理效果将重合。但是,当结果是二元的或本质上是事件发生的时间时,优势比和危险比就无法崩溃[11]。罗森鲍姆(Rosenbaum)指出,倾向得分方法允许人们估计边际效应,而不是条件效应[12]。缺乏对不同倾向评分方法来评估边缘治疗效果的研究。 但是在奥斯丁的另一篇论文中,他说 对于每个受试者,治疗的效果被定义为。平均处理效应(ATE)被定义为È [ ÿ 我(1 )- Ý 我(0 )]。(Imbens,2004)。ATE是将总体人口从未治疗转移到已治疗的平均效果。ÿ一世(1 )- ÿ一世(0 )ÿ一世(1个)-ÿ一世(0)Y_i(1)- Y_i(0)Ë[ Y一世(1 )- ÿ一世(0 )]Ë[ÿ一世(1个)-ÿ一世(0)]E[Y_i(1)- Y_i(0)] 所以我的问题是...平均治疗效果和边际治疗效果有什么区别? 同样,我应该如何分类估计?我有一个倾向得分加权(IPTW)Cox模型。我唯一的协变量是治疗指标。应将得出的危险比视为事后评估还是事后评估? 编辑:更令人困惑的是,郭在自己的倾向得分分析中声称边际治疗效果是 ...对冷漠边缘人群的治疗效果的特例(EOTM)。在某些政策和实践情况下,区分边际收益和平均收益很重要。例如,上大学的普通学生可能比不关心上学或不上学的边缘学生做得更好(即,成绩更高)。 我觉得这应该加一点盐,因为这是针对社会科学的(我认为边际具有不同的定义),但是我认为我将在这里包括它来显示我为什么感到困惑。

1
混杂因素-定义
根据卡茨(M. Katz)在其《多变量分析》(第1.2节,第6页)中的说法,“ 混杂因素与风险因素相关,并且与结果有因果关系。 ”为什么混杂因素必须与结果有因果关系?将混杂因素与结果关联起来就足够了吗?

6
确定状况“ B”对治疗“ A”的益处时,有效性和功效之间有何区别?
这个问题的背景是在健康框架内,即在疾病治疗中寻找一种或多种疗法。看起来,即使是受人尊敬的研究人员也可以将术语功效和效力混淆使用,这两个术语可以互换使用。 如何以一种有助于消除困惑的方式来考虑功效与功效? 哪种类型的研究设计最适合确定两种类型的结果? 有什么权威的期刊出版物,书籍或网络词典对我有帮助吗?

2
do(x)运算符的含义?
在关于因果关系的一些文献评论中,我到处都可以看到运算符(例如,参见此Wikipedia条目)。但是,我找不到该运算符的正式定义。do (x )do(x)do(x) 有人可以为此指出我一个很好的参考吗?我对一般定义感兴趣,而不是对特定实验中的解释感兴趣。

4
在多元回归之前单变量回归的意义是什么?
我目前正在研究一个问题,我们的数据集很小,并且对治疗对结果的因果关系感兴趣。 我的顾问指示我对每个预测变量执行单变量回归,以结果作为响应,然后以治疗分配作为响应。即,要求我一次将一个变量与一个回归拟合,并制作结果表。我问“为什么要这么做?”,答案是“我们对哪些预测因素与治疗分配和结果相关感兴趣,因为这很可能表明混杂因素”。我的顾问是一位训练有素的统计学家,而不是其他领域的科学家,因此,我倾向于信任他们。 这是有道理的,但尚不清楚如何使用单变量分析的结果。这样做是否会导致模型选择的选择导致估计值的显着偏差和狭窄的置信区间?为什么有人要这样做?我很困惑,我的顾问在提出这个问题时还不太清楚。有人在这项技术上有资源吗? (注意:我的顾问曾说过,我们不会将p值用作临界值,而是我们要考虑“一切”。)


2
微观计量经济学中的因果关系与时间序列计量经济学中的格兰杰因果关系
我了解微观经济学(尤其是IV或回归不连续性设计)中使用的因果关系,以及时间序列计量经济学中使用的Granger因果关系。如何将彼此联系起来?例如,我已经看到两种方法都用于面板数据(例如,T = 20)。在这方面对论文的任何引用将不胜感激。ñ= 30N=30N=30Ť= 20T=20T=20

4
有向无环图中的边是否代表因果关系?
我正在学习概率图形模型,这是一本用于自学的书。有向无环图(DAG)中的边是否代表因果关系? 如果我想构建贝叶斯网络,但不确定箭头的方向怎么办?所有数据将告诉我观察到的相关性,而不是它们之间的相互联系。我知道我要问的太多了,因为我确信接下来的章节将解决这些问题,但这只是我不能停止思考的原因。


2
因果阶梯中的梯级2和3之间的差异
在朱迪亚·珀尔(Judea Pearl)的《为什么书》中,他谈到了他所谓的因果阶梯,这实质上是一个由不同层次的因果推理组成的等级体系。最低的是与观察到的数据中的关联模式有关(例如,相关性,条件概率等),第二个与干预有关(如果我们以某种预定的方式故意改变数据生成过程会发生什么?),第三个是反事实(如果某件事发生或未发生,在另一个可能的世界中会发生什么)? 我不明白的是,梯级2和3有何不同。如果我们提出反事实的问题,我们不是简单地提出有关干预的问题,以否定 观察到的世界的某些方面吗?
12 causality 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.