变量匹配和统计控制等方法之间的联系是什么？

10

您经常会在研究文章中看到研究人员已经控制了某些变量。这可以通过诸如匹配，阻止等方法来完成。

但是我一直认为，控制变量是通过测量几个可能具有影响力的变量并对其进行一些统计分析而在统计上完成的，这可以在真实和准实验中完成。因此，例如，您将进行一项调查或其他测试，在其中您将测量自变量和一些可能混淆的变量并进行一些分析。

在准实验中可以控制变量吗？
变量匹配和统计控制等方法之间的联系是什么？

experiment-design random-variable controlling-for-a-variable

— 蕾妮·丹斯特拉（RenéeDamstra）
source

1

您是否看过这个问题：一个控制其他变量的精确度如何？

— gung-恢复莫妮卡

6

与AdamO一样，我认为回答这个问题的关键是因果推论的概念，以及如何使用观察性设置“推向”因果模型。

在理想世界中，我们将拥有一个称为反事实的人口 -研究人口，除我们感兴趣的单个事物外，所有方面都相同。基于该差异，这两个人口之间的差异是真正的因果关系。

显然，我们不能拥有这个。

但是，有一些方法可以尝试接近它：

随机化：理论上（如果随机化正确完成）应该给您两个相同的总体，除了随机化后的治疗。
分层：您可以查看在协变量级别内的总体，在此进行“具有相同的喜欢”比较。对于少量的关卡，这种方法非常出色，但是很快变得麻烦。
匹配：匹配是为了使研究人群聚集，使A组类似于B组，因此可以进行比较。
统计调整：将协变量包含在回归模型中可以估算协变量范围内的效果-再次进行比较，或至少进行比较。

所有这些都是试图与该反事实人群更接近。如何最好地做到这一点取决于您想获得什么，以及您的学习情况如何。

— 方铁
source

精彩的解释。更简洁，更好地解决了原始问题。让我补充一下这些方法，只有统计调整才能解决空层的问题。在病例对照研究中，如果我们希望按年龄对人群进行分层，则需要对年龄进行匹配，分层和（分组）随机化，以将50岁病例与51岁对照进行比较。

— AdamO 2012年

但是，在逻辑回归中，您可以使用连续信息隐式地借用各个组的信息，例如使用线性或基本样条调整了年龄来进行比较。这使回归建模成为可用的最强大，最有用的统计方法之一。

— AdamO '11年

@AdamO同意-在我对上面链接的问题的回答中，我提到可以使用它来平滑没有信息的区域，只要信息的缺乏是由于偶然性和分类所致。但是，是的-回归很棒是有原因的。

— Fomite 2012年

2

我认为因果模型是回答这个问题的关键。首先要面对的问题是，即使在查看数据之前，也要先确定正确的调整/分层/受控的兴趣效果。如果我要估计成年人的身高/肺活量之间的关系，我会根据吸烟状况进行调整，因为吸烟会阻碍生长并影响肺活量。混杂因素是与关注的预测因素因果相关且与关注的结果相关联的变量。请参见《犹太珍珠》的因果关系，第二版。在数据收集过程甚至开始使用理性的逻辑和先前探索性研究的先验知识之前，就应该指定并强化对正确混杂变量的分析。

但是，这并不意味着某些研究人员不依靠数据驱动的方法来选择调整变量。在进行确认性分析时，我不同意在实践中这样做。用于多个调整后的模型的模型选择中的一些常见技术是前进/后退模型选择，您可以在其中选择您认为至少合理的模型类别。为此，黑匣子AIC选择标准与可能性有关，因此与的降低程度有关。 $R^2$ 这些调整变量的线性模型。流行病学中另一个常见的过程是，仅当变量将主要作用的估计值（如优势比或危险比）至少改变10％时，才将其添加到模型中。尽管这比基于AIC的模型选择“更”正确，但我仍然认为这种方法存在一些主要警告。

我的建议是预先指定所需的分析作为假设的一部分。年龄调整后的吸烟/癌症风险是一个不同的参数，在对照研究中得出的推断与粗略吸烟/癌症风险不同。使用主题知识是选择预测变量进行回归分析调整的最佳方法，或者作为对实验和准实验设计的各种其他“受控”分析进行分层，匹配或加权变量的最佳方法。

— 亚当
source

2

有关匹配和回归之间关系的故事在此处的博客文章中得到了简要总结。简而言之

“对D [治疗指标]的回归是X [协变量]的完整虚拟模型（即饱和）模型。D的影响的最终估计值等于对X的匹配，并通过方差对协变量单元进行加权X为条件的治疗

另请参阅《几乎无害计量经济学》第3.3节或《反事实与因果推论》第5.3节，以进行全面的讨论，包括D给出的X加权隐式提供的D的优缺点。

@EpiGrad为您的第一个问题提供了一个良好的开端。上面链接的书几乎都对它进行了处理。如果您没有计算机科学/数学背景，您可能会发现Pearl很难（尽管最终值得这么做！）

— 共轭先验
source