与在回归中建立多个模型相比,估算的优势是什么?


10

我想知道是否有人可以提供为什么缺失数据的插补比仅仅为缺失数据的案例建立不同模型更好的见解。尤其是在[广义]线性模型的情况下(我也许可以看到在非线性情况下情况有所不同)

假设我们有基本的线性模型:

ÿ=β1个X1个+β2X2+β3X3+ϵ

但是我们的数据集包含一些缺少记录。在将使用模型的预测数据集中,也将丢失X 3的情况。似乎有两种方法可以进行:X3X3

多种型号

我们可以将数据分为和非X 3两种情况,并为每种情况建立一个单独的模型。如果我们假设X 3X 2紧密相关,则丢失的数据模型可以使X 2超重以获得最佳的二变量预测。同样,如果丢失的数据案例略有不同(由于缺少数据机制),则可以合并该差异。不利的一面是,这两个模型只能分别拟合一部分数据,而不能“互相帮助”,因此在有限的数据集上拟合可能较差。X3X3X3X2X2

归因

回归多重插补将首先通过基于X 1X 2建立模型来填充,然后随机采样以保持插补数据中的噪声。由于这又是两个模型,这会不会最终与上述的多模型方法相同?如果它能跑赢大市-收益来自何处?仅仅是X 1的拟合在整个集合上完成了吗?X3X1个X2X1个

编辑:

尽管到目前为止,Steffan的回答说明,将完整的案例模型拟合到推算的数据上将胜过对完整数据的拟合,而且显然相反的事实是正确的,但是对于缺失数据预测仍然存在一些误解。

如果我拥有上述模型,甚至可以完美拟合,那么如果我在预测时仅输入零,则通常将是一个糟糕的预测模型。可以想象,例如,然后X 2是完全无用的(β 2 = 0),当X 3是存在的,但仍然是在不存在有用的X 3X2=X3+ηX2β2=0X3X3

我不明白的关键问题是:构建两个模型,一个使用和一个使用X 1X 2X 3更好,还是构建一个单独的((完整)模型并在预测数据集上使用插补-还是同一回事?X1个X2X1个X2X3

引入Steffan的答案,似乎最好是在一个推定的训练集上构建完整的案例模型,相反,最好是在丢弃了的完整数据集上构建缺失的数据模型。第二步与在预测数据中使用归因模型有什么不同吗?X3

Answers:


4

我认为这里的关键是了解缺失的数据机制。或至少排除一些。建立单独的模型类似于将缺失和不缺失的群体视为随机样本。如果X3的缺失与X1或X2或其他一些未观察到的变量有关,则您的估计可能会在每个模型中出现偏差。为什么不对开发数据集使用多重插补,而对多重估算的预测集使用组合系数呢?在预测中取平均值,您应该会很好。


但是,如果缺失与X1或X2有关,那么肯定有两个单独的模型是很好的-因为它们将合并该信息。也就是说,将来当我丢失X3时,我会知道它会偏向正确的方向。
Korone 2013年

3

我假设您有兴趣获得回归系数的无偏估计。的完整案例分析得出的回归系数的无偏估计提供的是该X3缺失不依赖于Y.此概率持有,即使missingness概率取决于X1和X2,以及任何类型的回归分析。

当然,如果完整案件的比例很小,则估算可能没有效率。在那种情况下,您可以在给定X2,X1 Y的情况下使用X3的多重插补来提高精度。有关详细信息,请参见White and Carlin(2010)Stat Med


啊,推算是关于正确设置系数的吗?系数本身对我不感兴趣-我只想最大化我对新数据的预测能力(这也可能会丢失)
Korone 2013年

1
没关系。为了获得最大的预测能力,您还需要精确无偏的模型系数估计。
Stef van Buuren

如果仅使用完整案例,那么在缺少数据时就无法使用该模型进行预测,因为系数通常是不正确的(例如,如果X2和X3之间存在相关性)。因此,我必须在进行预测时估算X3或仅在X1和X2中建立第二个模型。问题是,这是否导致不同的预测,哪个更好?
Korone

嗯,我想我明白您要说的一点:如果我使用推算使模型适合于完整案例预测,那么与仅对竞争案例进行拟合相比,这将改善完整案例预测。剩下的问题是,对于不完整的案件,最好的办法是什么?
Korone

假设beta_1 = beta_2 = 0且beta_3 =1。仅使用X1和X2可以预测常数,而使用X3的预测将解释Y的某些方差,从而导致较低的残留误差。因此,估算版本会产生更好的预测。
Stef van Buuren

0

哈佛大学的一项研究提出了对缺失数据的五种预测的多重插补(这里是参考文献,http://m.circoutcomes.ahajournals.org/content/3/1/98.full )。即使这样,我也确实记得这样的评论,即插补模型可能仍不会为不包含真实基础值的模型参数产生覆盖间隔!

考虑到这一点,似乎最好使用五个简单的朴素模型来计算缺失值(假设在当前讨论中不是随机缺失),这些模型会产生良好的值分布,因此覆盖间隔至少可以包含真实参数。 。

我在抽样理论上的经验是,经常对无应答人群进行二次抽样时会花费大量资源,这有时似乎与应答人群非常不同。因此,我建议在特定的应用领域中进行一次类似的练习,以进行缺失值回归分析至少一次。在对丢失数据的这种探索中未恢复的关系对于构建未来更好的丢失数据预测模型具有历史价值。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.