结果变量的多重插补

我有一个关于农业试验的数据集。我的反应变量是一个反应比率：log（治疗/对照）。我对调解差异的原因很感兴趣，因此我正在运行RE元回归（未加权，因为很明显效果大小与估计方差无关）。

每个研究报告谷物产量，生物量产量或两者。我无法从仅报告生物量产量的研究中得出谷物的产量，因为并非所有研究的植物都对谷物有用（例如，包括甘蔗）。但是每一种产生谷物的植物也都有生物量。

对于缺少的协变量，我一直在使用迭代回归插补（遵循安德鲁·盖尔曼的教科书章节）。它似乎给出了合理的结果，并且整个过程通常是直观的。基本上，我预测缺失值，并使用这些预测值预测缺失值，并遍历每个变量，直到每个变量近似收敛（分布）。

有什么原因使我无法使用相同的过程来估算缺失的结果数据？给定谷类响应比，作物类型和我拥有的其他协变量，我可能可以为生物量响应比形成一个相对有用的估算模型。然后，我将对系数和VCV求平均值，并按照标准做法添加MI校正。

但是，当推算结果本身时，这些系数将如何衡量？协变量的系数解释是否与标准MI有所不同？考虑一下，我无法说服自己这行不通，但我不确定。欢迎阅读材料的想法和建议。

— generic_user
source

我没有答案，但是有一个问题和两个注释：1）比率的对数当然是对数的差。因此，您的DV等效于log（处理）-log（控制）。2）您在看哪本《吉尔曼的教科书》？

— 彼得·弗洛姆

是的，DV等效于log（处理）-log（控制）。我基础上的（非技术）章迭代回归插补失踪数据格尔曼已在网上发布：stat.columbia.edu/~gelman/arm/missing.pdf

— generic_user

有人告诉我，估算结果会导致蒙特卡洛错误。稍后将尝试查找链接。不要忘记，您需要确保将结果包括在协变量的插补模型中。

— DL Dahly 2012年

Answers:

如您所怀疑的，对结果度量使用多重插补是有效的。在某些情况下，这很有用，但也可能有风险。我考虑了所有协变量都完整且结果不完整的情况。

如果插补模型正确，我们将从插补数据中获得对参数估计值的有效推论。如果缺失与预测器的条件调整后（即在MNAR下）的结果相关，则仅从完整案例中得出的推论实际上可能是错误的。因此，如果我们知道（或怀疑）数据是MNAR，则推算很有用。

在MAR下，估算结果通常没有任何好处，而对于少量的估算，由于模拟误差，结果甚至可能会有更大的变化。有一个重要的例外。如果我们可以访问不属于模型且与结果高度相关的辅助完整变量，则插补可能比完整案例分析有效得多，从而可以得到更精确的估计值和更短的置信区间。发生这种情况的一种常见情况是，如果我们对每个人都有一个便宜的结果度量，而对于一个子集有一个昂贵的度量。

在许多数据集中，自变量中也会出现丢失的数据。在这些情况下，我们需要对结果变量进行估算，因为需要使用其估算版本来估算自变量。

— 斯蒂夫·范·布伦
source

谢谢，这与我的直觉是一致的，但是您也许可以分享一个链接，该链接已完成并推论了因变量？我要估算结果量度的主要原因之一是增加样本量（从约250到约450），以便在df要求很高的GAM中促进半参数张量积相互作用项（在获得之前）受罚，降低edf）。在我看来，MAR是合理的。

— –generic_user

方差分析（ANOVA）获得平衡设计已被广泛实践。请参见RJA Little的介绍，“缺少X的回归，JASA 1992”。我想您知道，以这种方式增加样本数量并不能帮助您获得更精确的估计。对于辅助变量，请阅读DB Rubin的超效率部分，JASA 1996

— Stef van Buuren 2013年

“在MAR下，估算结果通常没有任何好处” -我之前已经看到过这一点，但是我没有任何参考-您能提供一个吗？

— 罗伯特·朗

我认为您可以为此引用Little 1992 tandfonline.com/doi/abs/10.1080/01621459.1992.10476282，但请注意例外情况。

— Stef van Buuren

@StefvanBuuren-大部分情况下都是有用的答案，但是我的理解是“如果我们知道（或怀疑）数据是MNAR”，那么归咎于完全案例分析所不能解决的问题。这似乎属于“无免费午餐”类别。

— rolando2

估算结果数据非常普遍，并且在考虑随机误差时会导致正确的推断。

听起来您正在做的事情是单一估算，即在完整的案例分析下使用条件均值估算缺失值。您应该做的是多重插补，对于连续的协变量，该插补考虑了如果您追溯测量这些缺失值会发现的随机误差。EM算法通过对一系列可能的观察结果进行平均，以类似的方式工作。

当没有均值-方差关系时，单次插补可以正确估计模型参数，但是它会提供标准误差估计值，这些估计值偏向零，从而使I型错误率膨胀。这是因为您对测量这些因素所观察到的错误程度持“乐观”态度。

多重插补是为条件均值插补迭代生成加性误差的过程，因此，通过7或8个模拟插补，您可以组合模型及其误差，以获得对模型参数及其标准误差的正确估计。如果您共同缺失协变量和结果，那么SAS，STATA和R中都有通过链式方程式调用多重插补的软件，其中生成了“完整的”数据集（将插补值视为固定和非随机的数据集），模型从每个完整数据集中估计的参数，以及使用正确的数学形式将其参数估计和标准误差组合在一起（Van Buuren论文中的详细信息）。

MI中的过程与您描述的过程之间的细微差别是，您没有考虑到使用推算数据估算结果的条件分布将取决于您推算某些因素的顺序这一事实。您应该已经根据MI中的结果估计了缺少的协变量条件的条件分布，否则您将获得有偏差的参数估计值。

— 亚当
source

谢谢。首先，我正在使用R从头开始编写所有程序，而不是使用MICE或MI。其次，我用（模型化的）预测分布图进行估算，而不仅仅是有条件的期望。那是您在第二段中所说的吗？如果没有，我希望澄清。另外，您指的是罗伊斯顿论文？对于最后一点，您说的还有什么比“应该将因变量放入插补模型中”更复杂的了吗？如果是这样，我将不胜感激澄清。

— –generic_user

最后-我不是在进行单一估算。我正在使用填充数据并使用Rubin的V_b = W +（1 + 1 / m）B公式拟合30个模型。

— –generic_user

Royston纸已超链接。实际上，我的意思是链接在R中实现该程序并包括计算细节的Van Buuren：doc.utwente.nl/78938 MICE / MI是一个过程。如果要基于本地代码进行估算，则应该更好地详细说明。如果模型正确（或近似如此，则为必要的假设），条件均值=预测值。它比“添加结果”要复杂得多，因为您要估算几种缺失的模式（至少3种，缺失协变量/结果/共同缺失）。

— AdamO 2013年

如果您单独估算30次预测值，则应该获得30次相同的结果。您如何估计错误？

— AdamO 2013年

f i t, i m p

$fit,imp$ se.fit）。然后，我做a * = y，然后做imp = lm（b〜a * + c * + d *），以相同的方式进行预测，依此类推。我遍历整个变量集50次。这都是我上面链接的那本安德鲁·盖尔曼教科书章节的全部内容，这也是为什么我每次都无法获得相同结果的原因。

— generic_user