区分随机缺失(MAR)与完全随机缺失(MCAR)


13

我已经多次解释了这两个。他们继续煮我的脑子。错失是有意义的,而完全错失是有意义的……随机错并没有那么多。

是什么引起了将是MAR而不是MCAR的数据?


您的问题是否得到另一个问题的回答:“随意丢失”这个名称是否有充分的理由?,以及它们列出的资源?
Andy W

3
@AndyW说白了,不。关于名称为何有缺陷的有趣讨论,以及隐藏在订阅墙后面的文章。
Fomite '02

Answers:


18

随机缺失(MAR)意味着可以用您具有完整信息的变量来解释缺失。这不是一个可检验的假设,但是在某些情况下它是合理的,而不是合理的。

例如,进行政治民意调查。许多人拒绝回答。如果您假设人们拒绝回答的原因完全基于人口统计信息,并且每个人都有这些人口统计信息,则数据为MAR。众所周知,人们拒绝回答的某些原因可能是基于人口统计因素(例如,低收入和高收入人群比中层人群回答的可能性较小),但实际上没有办法知道是否是完整的解释。

因此,问题变成“足够吃饱了吗?”。通常,只要数据不是非常随机丢失,多重插补等方法就会比其他方法更好地工作。


5
该杂志统计软件(在线)的有大约多重插补最近遇到的问题,我一直在寻找的三巨头多重插补包R: ,Ameliamimice。异同令人着迷。(Ameliaover impute很有趣。)
韦恩(Wayne

1
这是JSS问题的链接:jstatsoft.org/v45
恢复莫妮卡

11

我不确定这是否正确,但是我试图理解的方式似乎是存在一个2x2的可能性矩阵,而且这种矩阵不是很对称。就像是:

Pattern  /   Data Explains Pattern

            Yes         No

Yes         MAR        MNAR

No          --         MCAR

也就是说,如果某个变量的缺失存在某种模式,而我们拥有的数据无法解释它,那么我们就拥有MNAR,但是如果我们拥有的数据(即我们数据集中的其他变量)能够说明它,那么我们就有MAR。如果没有缺失的模式,那就是MCAR。

我可能不在这里。另外,这还留下了“模式”和“数据解释”的定义。我认为“数据解释”是指数据集中的其他变量也可以解释它,但是我相信您的过程也可以解释它(例如,另一个线程中的一个很好的例子是,如果您有三个测量变量来测量同一事物,并且程序是如果前两次测量结果相差太大,则您进行了第三次测量)。

这对于直觉,简历足够准确吗?


-1

我也在努力理解差异,因此也许一些示例可能会有所帮助。

MCAR完全随机丢失,太好了。这意味着无响应是完全随机的。因此,您的调查没有偏见。

MAR随机丢失,情况更糟。想象一下,您在要求智商,女性参与者比男性多得多。幸运的是,智商与性别无关,因此您可以控制性别(应用权重)以减少偏见。

MNAR不是随机丢失的,不好。考虑进行收入水平调查。同样,女性参与者比男性参与者多。在这种情况下,这是一个问题,因为收入水平与性别有关。因此,您的结果将有偏差。不容易摆脱。

您会看到,它是目标变量(例如收入,Y),辅助变量(例如年龄,X)和响应行为(响应组,R)之间的“三角”关系。如果X仅与R相关,则为良好(MAR)。如果X和R之间以及X和Y之间存在关系,则它不好(MNAR)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.