在回归模型中控制变量与在研究设计中控制变量之间有什么区别？

我想在研究设计中控制变量比在回归模型中事后控制变量减少错误更有效。

有人介意正式解释这两个“控制”实例的不同之处吗？它们在减少错误和产生更精确的预测方面有多有效？

regression experiment-design controlling-for-a-variable

— 捷运
source

通过“在研究设计中控制变量”，我假设您的意思是使变量在所有研究单元中保持恒定或操纵变量，以便为每个研究单元独立设置该变量的水平。也就是说，在研究设计中控制变量意味着您正在进行一个真实的实验。这样做的好处是可以帮助推断因果关系。

从理论上讲，控制回归模型中的变量也可以帮助推断因果关系。但是，仅当您控制与响应具有直接因果关系的每个变量时，情况才如此。如果您忽略了这样一个变量（也许您不知道是否要包含它），并且它与任何其他变量相关联，那么您的因果推论将是有偏见且不正确的。实际上，我们并不知道所有相关变量，因此统计控制是一项相当艰辛的工作，它依赖于您无法检查的大假设。

但是，您的问题询问的是“减少错误并产生更精确的预测”，而不是推断因果关系。这是一个不同的问题。如果您要通过研究设计使给定变量恒定，则将消除由于该变量引起的所有响应变异性。另一方面，如果仅控制变量，则将估计其影响，该影响至少会受到采样误差的影响。换句话说，从长远来看，在减少样本中的残留方差方面，统计控制将不如以前。

但是，如果您对减少误差并获得更精确的预测感兴趣，那么大概您主要是在关注样本属性，而不是样本内的精度。擦在里面。当您通过以某种形式操纵变量（使其保持常量等）来控制变量时，所产生的情况比原始的自然观察更为人为。也就是说，与观察性研究相比，实验往往具有较小的外部有效性 /泛化性。

如果不清楚，一个真实实验可以保持某种恒定性的一个例子可能是评估使用基因完全相同的近交小鼠在小鼠模型中的治疗。在另一方面，在控制变量的例子可以通过虚拟代码代表疾病家族史和包括多元回归模型（该变量参考，为什么说一个“控制其他变量？”，以及如何可以添加第二IV使第一IV有意义吗？）。

— gung-恢复莫妮卡
source

很好的解释！@gung

— Aaron Zeng