Questions tagged «propensity-scores»

给定一组观察到的协变量,接受治疗的可能性。

5
倾向得分与在回归中添加协变量相比有何不同?何时优先选择后者?
我承认我在倾向得分和因果分析方面还比较陌生。 作为一个新手,对我而言不明显的一件事是,使用倾向得分的“平衡”在数学上与在回归中添加协变量时发生了什么变化?该操作有何不同,为什么它(或它)比在回归中添加子群体协变量更好? 我看过一些对这些方法进行实证比较的研究,但是我没有看到关于这两种方法的数学性质的很好的讨论,为什么PSM却不适合因果关系而又不包括回归协变量。在这个领域似乎也有很多困惑和争议,这使得事情变得更加难以掌握。 对这个问题有什么想法,或者有什么好的资源/论文可以更好地理解两者之间的区别?(我正在慢慢浏览Judea Pearl的因果关系书,因此无需指出这一点)

3
多次插补后的倾向得分匹配
我指的是这篇文章:Hayes JR,Groner JI。 “使用多个归因和倾向评分,通过创伤登记数据来测试汽车座椅和安全带的使用对伤害严重性的影响。” J Pediatr外科。2008年5月; 43(5):924-7。 在这项研究中,进行了多次插补以获得15个完整的数据集。然后为每个数据集计算倾向得分。然后,对于每个观察单位,从完成的15个数据集中的一个数据集中随机选择一个记录(包括相关的倾向得分),从而创建一个最终的数据集,然后通过倾向得分匹配对其进行分析。 我的问题是:在多次插补之后执行倾向得分匹配的有效方法吗?有其他替代方法吗? 对于上下文:在我的新项目中,我旨在比较使用倾向得分匹配的两种治疗方法的效果。缺少数据,我打算使用MICER中的包来估算缺失值,然后twang进行倾向得分匹配,然后lme4分析匹配的数据。 更新1: 我发现这个纸,它采用不同的方法:米特拉,Robin和莱特尔,杰罗姆P.缺少经由迭代协变量(2011)倾向评分匹配,顺序的多个插补[工作文件] 在本文中,作者计算了所有估算数据集的倾向得分,然后通过平均将其合并,这符合使用鲁宾规则进行点估算的多次插补的精神-但这真的适用于倾向得分吗? 如果CV上的任何人都可以对这两种不同的方法和/或任何其他方法提供评论并给出答案,那真是太好了。

5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

5
从统计学的角度来看,能否通过观察性研究使用倾向评分来推断因果关系?
问题:从统计学家(或从业者)的角度来看,可以通过观察研究(而非实验)使用倾向评分来推断因果关系吗? 拜托,不要发动火焰战争或狂热的辩论。 背景:在统计博士计划中,我们仅通过工作组和一些主题会议来探讨因果关系。但是,其他部门(例如HDFS,社会学)中有一些非常杰出的研究人员正在积极使用它们。 我已经目睹了关于此问题的一些激烈辩论。我的目的不是在这里开始。也就是说,您遇到了哪些参考资料?你有什么观点?例如,我听说过有人反对将倾向得分作为一种因果推理技术,这是由于忽略了变量偏差而无法推断因果关系的原因-如果遗漏了一些重要内容,则会打破因果关系链。这是一个无法解决的问题吗? 免责声明:这个问题可能没有正确的答案-单击cw会很酷,但是我个人对响应非常感兴趣,并希望获得一些很好的参考,其中包括实际示例。

1
平均和边缘治疗效果之间的差异
我一直在阅读一些论文,但对平均治疗效果(ATE)和边际治疗效果(MTE)的具体定义不清楚。他们是一样的吗? 根据奥斯丁 ... 条件效应是在受试者水平上将受试者从未治疗转移到已治疗的平均效应。来自多变量回归模型的治疗分配指标变量的回归系数是对条件或调整后效应的估计。相反,边际效应是在整个人口水平上将整个人口从未治疗转移到已治疗的平均效应[10]。线性处理效果(均值差异和比例差异)是可折叠的:条件和边际处理效果将重合。但是,当结果是二元的或本质上是事件发生的时间时,优势比和危险比就无法崩溃[11]。罗森鲍姆(Rosenbaum)指出,倾向得分方法允许人们估计边际效应,而不是条件效应[12]。缺乏对不同倾向评分方法来评估边缘治疗效果的研究。 但是在奥斯丁的另一篇论文中,他说 对于每个受试者,治疗的效果被定义为。平均处理效应(ATE)被定义为È [ ÿ 我(1 )- Ý 我(0 )]。(Imbens,2004)。ATE是将总体人口从未治疗转移到已治疗的平均效果。ÿ一世(1 )- ÿ一世(0 )ÿ一世(1个)-ÿ一世(0)Y_i(1)- Y_i(0)Ë[ Y一世(1 )- ÿ一世(0 )]Ë[ÿ一世(1个)-ÿ一世(0)]E[Y_i(1)- Y_i(0)] 所以我的问题是...平均治疗效果和边际治疗效果有什么区别? 同样,我应该如何分类估计?我有一个倾向得分加权(IPTW)Cox模型。我唯一的协变量是治疗指标。应将得出的危险比视为事后评估还是事后评估? 编辑:更令人困惑的是,郭在自己的倾向得分分析中声称边际治疗效果是 ...对冷漠边缘人群的治疗效果的特例(EOTM)。在某些政策和实践情况下,区分边际收益和平均收益很重要。例如,上大学的普通学生可能比不关心上学或不上学的边缘学生做得更好(即,成绩更高)。 我觉得这应该加一点盐,因为这是针对社会科学的(我认为边际具有不同的定义),但是我认为我将在这里包括它来显示我为什么感到困惑。

4
倾向得分与面板数据匹配
我有个人的纵向数据集,其中一些人接受了治疗,而其他人则没有。从出生到18岁的所有个体都在样本中,并且治疗发生在该范围内的某个年龄。治疗的年龄可能因病例而异。使用倾向得分匹配,我想将治疗的和对照组的配对成对地匹配到出生年份,这样我就可以追踪从出生到18岁的每一对。总共有大约150个治疗和4000个未治疗的个体。匹配后,想法是使用差异策略来估计治疗效果。 我目前面临的问题是与面板数据进行匹配。我正在使用Stata的psmatch2命令,并且使用倾向得分匹配来匹配家庭和个人特征。通常,面板数据在每个年龄段都会有不同的最佳匹配。例如:如果治疗A,B和C是对照,并且他们都出生于1980年,那么A和B可能在1980年匹配到0岁,而A和C则在1981年匹配到1岁,依此类推。 。另外,A可能与其前几年的自身预处理值匹配。 为了解决这个问题,我取了所有随时间变化的变量的平均值,以便匹配可以识别在样本期间平均而言最相似的个人,并且我针对0至18岁的每个年龄段分别进行匹配。不幸的是,这仍然将不同的控制单元与每个年龄组的每个治疗单元匹配。 如果有人可以指导我找到一种与Stata中的面板数据进行成对匹配的方法,将不胜感激。


2
Cox PH分析和协变量选择中的倾向得分加权
关于对事件生存时间进行Cox比例风险建模时的倾向得分加权(IPTW): 我有前瞻性的注册表数据,我们希望了解大多数情况下患者已经在基线时服用的药物的治疗效果。因此,我不确定如何最好地分析数据。潜在地,一些基线变量在很大程度上受到治疗的影响,而不是相反(例如某些生物标志物)。我对于应该在倾向评分模型中估计权重的哪些协变量以及应该在coxph模型中作为协变量的哪些协变量(如果有的话)不知所措。正确方向的任何提示都将有所帮助!到目前为止,我还没有找到任何有关CoxPh建模的文献。 我认为协变量代表Cox PH协变量应包括代表基线(可能)影响治疗结果的基线治疗,但我不确定。 如何确定应将哪些变量作为协变量包括在Cox模型中,而不是用于计算倾向得分权重? 后续问题: 我了解评估已经开始的某种干预措施的治疗效果的继承问题-即在开始观察之前在患者中普遍存在。关于引入与风险的时间变化相关的偏见(例如,不良副作用在治疗的第一年更加普遍)以及受治疗影响的协变量。如果我没记错的话,这是由于心血管终点和激素替代疗法引起的观察性和随机性差异的原因。另一方面,在我的数据集中,我们有兴趣查看治疗的可能不利影响。 如果我使用倾向评分调整来调查普遍使用者的治疗效果,即在观察开始之前已经使用过药物,则在队列数据中,我们会观察到药物治疗的不利影响(这就是我们所要寻找的)。我可以排除高估与治疗相关的风险的可能性吗?即是说,只要风险显着增加,它是“绝对”没有保护意义的吗? 我无法完全想象一个例子,在这种情况下,这种偏见会导致高估虚假风险关联的风险。

1
倾向评分权重中治疗权重(IPTW)的逆概率的直观解释?
我了解使用倾向得分计算权重的机制: ,然后将权重应用于回归分析,并且权重用于“控制”治疗组和对照组人群中协变量的作用或使结果与结果变量无关。p(xi)p(xi)p(x_i)wi,j=treatwi,j=control=1p(xi)=11−p(xi)wi,j=treat=1p(xi)wi,j=control=11−p(xi)\begin{align} w_{i, j={\rm treat}} &= \frac{1}{p(x_i)} \\[5pt] w_{i, j={\rm control}} &= \frac{1}{1-p(x_i)} \end{align} 但是,在直觉上,我不了解权重是如何实现的,以及为什么方程式如此构造。

1
倾向得分加权对平均治疗效果的置信区间?
我试图使用倾向评分权重(特别是IPTW)从观察数据中估计平均治疗效果。我想我正在正确计算ATE,但是我不知道如何在考虑逆倾向得分权重的同时计算ATE的置信区间。 这是我用来计算平均治疗效果的方程式(参考Stat Med。2010年9月10日; 29(20):2137–2148。): 其中受试者总数,治疗状态,结果状态,倾向得分。ATE=1N∑1NZiYipi−1N∑1N(1−Zi)Yi1−piATE=1N∑1NZiYipi−1N∑1N(1−Zi)Yi1−piATE=\frac1N\sum_1^N\frac{Z_iY_i}{p_i}-\frac1N\sum_1^N\frac{(1-Z_i)Y_i}{1-p_i}N=N=N=Zi=Zi=Z_i=Yi=Yi=Y_i=pi=pi=p_i= 有人知道R包会考虑权重来计算平均治疗效果的置信区间吗?可以在survey这里包帮助吗?我想知道这是否行得通: library(survey) sampsvy=svydesign(id=~1,weights=~iptw,data=df) svyby(~surgery=='lump',~treatment,design=sampsvy,svyciprop,vartype='ci',method='beta') #which produces this result: treatment surgery == "lump" ci_l ci_u No 0.1644043 0.1480568 0.1817876 Yes 0.2433215 0.2262039 0.2610724 我不知道从哪里可以找到比例之间的差异的置信区间(即平均治疗效果)。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.