需要受治疗影响的协变量的良好数据示例


19

我查看了很多R数据集,DASL中的发布以及其他地方,但没有找到很多有趣的数据集的很好的例子来说明实验数据的协方差分析。在统计教科书中有许多“玩具”数据集,其中包含人为的数据。

我想举一个例子:

  • 数据是真实的,有一个有趣的故事
  • 至少有一个治疗因素和两个协变量
  • 至少一个协变量受一种或多种治疗因素的影响,而一个不受治疗的影响。
  • 实验性而非观察性,最好

背景

我的真正目标是找到一个很好的例子,将我的R包放入小插图中。但是更大的目标是,人们需要看到良好的例子来说明协方差分析中的一些重要问题。考虑以下组合方案(请理解,我的农业知识充其量只是肤浅的)。

  • 我们进行了一项实验,其中将肥料随机分配给田地,并种植了农作物。经过适当的生育期后,我们收获农作物并测量一些质量特征-这就是响应变量。但是,我们还记录了生长期的总降雨量,以及收获时的土壤酸度,当然还记录了使用的肥料。因此,我们有两个协变量和一个处理。

分析结果数据的常用方法是将处理作为一个因素拟合线性模型,并对协变量进行累加效应。然后总结一下结果,在平均降雨量和3平均土壤酸度下,计算“调整均值”(AKA最小二乘均值),这是每种肥料模型预测的结果。这使一切都处于平等地位,因为当我们比较这些结果时,我们将降雨量和酸度保持恒定。

但这可能是错误的做法-因为肥料可能会影响土壤酸度以及反应。这会使调整后的方法产生误导,因为处理效果包括其对酸度的影响。解决此问题的一种方法是将酸度从模型中剔除,然后通过降雨调整后的方法进行公平的比较。但是,如果酸度很重要,那么这种公平性将付出巨大代价,这会增加残留变化。

有多种方法可以解决此问题,方法是在模型中使用调整后的酸度版本而不是其原始值。我的R软件包lsmeans即将更新,这将使这一切变得容易。但是我想有一个很好的例子来说明这一点。我将非常感谢并适当感谢任何能将我引向一些出色的说明性数据集的人。


1
尽管这无疑是一个重要且有趣的问题,但似乎可能与有关主题的规则
相抵触


1
到目前为止,我对这些回答的印象是,我们谨慎地裁定对此持谨慎态度,以便对其他类似问题进行空白检查,但是我们主要是赞成这个特定问题,甚至有点急于想知道是什么。您可能会得到的各种答案(也许那只是我)。我们不希望被写得不好这个问题是问的数据集,用以证明点的仿冒品统计数字,但没有有关的统计数据。即,在演示统计原理时寻求帮助是一回事,但对于特定领域的数据集,则是另一回事……
Nick Stauner 2014年

3
好的,听起来不错。过去,我为降低我的声誉做过更糟糕的事情……
rvl

2
@SteveS我同意这是赏金的好人选;确实,我只是来这里亲自穿上它,却发现Russ已经这样做了。如果一周内没有好的答案,我可能会考虑再悬赏一次。拉斯:对有趣问题的赏金往往引起足够的关注,以致随后的赞誉往往反而会为他们付出代价,因此声誉损失通常比乍看起来似乎要低得多。
Glen_b-恢复莫妮卡2014年

Answers:


6

您可能想签出mediationR包。它包括实验数据等jobsframing其中所述治疗变量会影响响应变量和协变量(即,治疗效果的介质)中,用不影响由治疗协变量沿。

我之所以研究调解文献,是因为尽管我确切地描述了一个调解研究:肥料对作物质量的影响是通过其对土壤酸度的影响来介导的。即使mediation软件包中的数据集不满足您的要求,但如果您查阅调解文献,也可能会找到一个满意的结果。


谢谢。我安装了程序包,将对其进行查看。并有机会学习新知识。
rvl 2014年

有趣的是,在我刚刚参加的JSM会议中的三个演讲中,有两个提到了就业数据...
rvl 2014年

1
好吧,我希望我能以某种方式分配赏金。但是这个软件包确实有非常适合我要求的数据集,因此@MasatoNakazawa可以得到赏金。非常感谢。使用framing数据,当中介变量保持固定时,LSmeans的交互图(基于逻辑模型)与将其设置为由治疗和其他协变量预测的值的情况大不相同,从而显示了进行中介的重要性变量考虑在内。
rvl

1
谢谢伦斯博士。实际上,我在论文中引用了您的文章。我很荣幸能够以任何方式为像您这样的知名统计学家提供帮助。

4

我以为我将展示如何使用中介包中的一个数据集进行分析。在中framing,进行了一项实验,实验对象有机会向国会发送有关移民的信息。但是,某些主题(treat=1)首先显示了一个新闻报道,以负面的方式描绘了拉丁美洲人。除了二元反应(他们是否发送信息)外,我们还测量emp了受试者在接受治疗后的情绪状态。人口统计变量也多种多样。

首先,让我们在R中加载所需的包,然后将标签更改为educ较短的字符串。

> library("lsmeans")
> library("mediation")
> levels(framing$educ) = c("NA","Ref","< HS", "HS", "> HS","Coll +")

现在拟合逻辑回归模型

> framing.glm = glm(cong_mesg ~ age + income + educ + emo + gender * factor(treat),
+                   family = binomial, data = framing)

这是常规调整后均值的显示,其中使用协变量age,进行预测incomeemo设置为其平均值:

> lsmip(framing.glm, treat ~ educ | gender, type = "response")

(常规“调整后的均值”的交互图,转换为响应比例)

这是一个令人好奇的结果,因为所显示的治疗效果对于女性和男性而言是相反的,而且教育效果并非像人们所期望的那样单调。

注意,然而,这emo是一种后处理测量。这意味着治疗可能已经影响到它,即emo是一个中介协变量。因此比较保持emo不变的响应变量的预测可能没有意义。取而代之的是,让我们看看将预测emo设置为给定预测值的位置treat以及人口统计变量。

> lsmip(framing.glm, treat ~ educ | gender, type = "response",
+       cov.reduce = emo ~ treat*gender + age + educ + income)

(考虑了中介效应的预测的交互作用图)

这个结果有很大的不同,表明它emo起着重要的中介作用。(中介程序包具有估算这些影响强度的功能。)上述预测表明,考虑到情感反应,暴露于负面新闻中的男性对象比女性或未看到负面消息的对象更有可能发送信息。负面新闻故事。同样,educ(几乎)是单调的。

再次感谢@MasatoNakagawa为我指出这个有趣的例子并使我对因果关系的一些最新研究感到惊讶。


3

查找基因与环境相互作用的GWAS研究。他们所进行的统计分析实质上就是您所描述的。问题是您的环境与表型(可观察的特征)有关吗?一所思想流派通常会忽略所有环境信息,并说您的基因组成描述了您的表型。这与生态学研究完全相反,在生态学研究中,环境就是一切,而他们却忽略了基因。由于双方都试图理解同一问题,因此最近进行了合并两者的尝试。

假设我们正在研究BMI。我们将遗传矩阵的前几个主要组成部分作为由于基因引起的固定效应。我们将教育程度较高的指标设为1,将教育程度较低的指标设为0,这是固定的效果。教育指数与该人所来自社区的财富之间存在相当强的相关性。因此有人会说,低收入社区更有可能开设更多快餐店。快餐食品是引起肥胖的诱因。“在您的遗传结构中触发了一些会促进脂肪积累的事情”,因此它将以某种形式出现在遗传构成中。

模拟此类数据不是问题。抬头

http://pngu.mgh.harvard.edu/~purcell/plink/simulate.shtml

这使您可以模拟引起症状的GWAS(将其视为遗传单位)数据。如果没有其他说明,它将生成1000的症状和1000的控件。在这些模拟中,我使用的标准是9990个SNP不会引起症状,而10个SNP会引起症状。阅读有关如何模拟的说明。

如果肥胖,则输出为1,否则为0。根据与肥胖水平之间的合理相关性,模拟教育因素(完成大学教育/未完成大学教育)。

希望这可以帮助!!!


谢谢。不过,仍然需要一些真实的数据...而且我不确定GWAS研究是什么。DUH,只需点击链接即可找到。
rvl 2014年

即使我将赏金交给了另一位受访者,我也很欣赏这个建议,并打算继续执行。谢谢。
rvl 2014年

1

我建议您阅读Freakonomics,并查找其工作所基于的论文,并查看是否可以获取这些数据。他们在非常有趣的数据集上进行了一些非常有趣的工作,并且在某些情况下,尽管数据有限,但他们却找到了非常聪明的方法来检验假设。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.