我想知道是否有人可以提供为什么缺失数据的插补比仅仅为缺失数据的案例建立不同模型更好的见解。尤其是在[广义]线性模型的情况下(我也许可以看到在非线性情况下情况有所不同)
假设我们有基本的线性模型:
但是我们的数据集包含一些缺少记录。在将使用模型的预测数据集中,也将丢失X 3的情况。似乎有两种方法可以进行:
多种型号
我们可以将数据分为和非X 3两种情况,并为每种情况建立一个单独的模型。如果我们假设X 3与X 2紧密相关,则丢失的数据模型可以使X 2超重以获得最佳的二变量预测。同样,如果丢失的数据案例略有不同(由于缺少数据机制),则可以合并该差异。不利的一面是,这两个模型只能分别拟合一部分数据,而不能“互相帮助”,因此在有限的数据集上拟合可能较差。
归因
回归多重插补将首先通过基于X 1和X 2建立模型来填充,然后随机采样以保持插补数据中的噪声。由于这又是两个模型,这会不会最终与上述的多模型方法相同?如果它能跑赢大市-收益来自何处?仅仅是X 1的拟合在整个集合上完成了吗?
编辑:
尽管到目前为止,Steffan的回答说明,将完整的案例模型拟合到推算的数据上将胜过对完整数据的拟合,而且显然相反的事实是正确的,但是对于缺失数据预测仍然存在一些误解。
如果我拥有上述模型,甚至可以完美拟合,那么如果我在预测时仅输入零,则通常将是一个糟糕的预测模型。可以想象,例如,然后X 2是完全无用的(β 2 = 0),当X 3是存在的,但仍然是在不存在有用的X 3。
我不明白的关键问题是:构建两个模型,一个使用和一个使用(X 1,X 2,X 3)更好,还是构建一个单独的((完整)模型并在预测数据集上使用插补-还是同一回事?
引入Steffan的答案,似乎最好是在一个推定的训练集上构建完整的案例模型,相反,最好是在丢弃了的完整数据集上构建缺失的数据模型。第二步与在预测数据中使用归因模型有什么不同吗?