归因于调查答复中的系统错误


9

我进行了一项大型调查,其中询问了学生,尤其是母亲的教育水平。有些人跳过了,有的回答错误。我知道这一点,因为后来有一个最初受访者母亲的子样本接受了采访,并提出了同样的问题。(我敢肯定,与母亲的回答有关的错误也要少一些。)

我的挑战是决定如何最好地利用第二个更可靠的数据源。至少,与只能依靠完整案例的情况相比,我可以使用它来更智能地估算丢失的数据。但是,如果我可以交叉核对数据的孩子中有3/4回答“我的母亲从未读完小学”的孩子与他们母亲的回答相矛盾,那么看来我应该使用估算来创建多个数据集以捕获那里的不确定性。[补充:我说的是3/4,但是现在我已经检查了数据,我还想告诉您,接近40%的数据是不对的]

我个人将在混合模型中使用母亲的教育作为预测因子,但是如果有人对其他情况有话要说,我也希望了解它们。

我很想收到有关广泛技巧或特定方面的建议。谢谢!

更新:尽管感谢Will和Conjugate_Prior的回答,但我暂时还没有解决问题,但我希望获得更多具体和技术反馈。

下面的散点图将让您了解在存在10,000个案例的情况下这两个变量如何关联。它们嵌套在100余所学校中。它们的相关系数为0.78,学生的答案-均值:5.12 sd = 2.05,妈妈的答案,均值= 5.02,sd = 1.92在大约15%的情况下,学生的答案缺失。

在此处输入图片说明


出于好奇,对这个教育问题“我的母亲从未读完小学”的第一个回答是吗?如果是这样,我将担心您对这些应试者的其余测试结果的准确性。
米歇尔(Michelle)

“她在学校走了多远?” -1)八年级或以下
Michael Bishop 2012年

您可能有一部分应试者打勾了每个问题的第一个答案。你能检查一下吗?
米歇尔2012年

该情节非常有见地。它看起来相当对称,如果实际上有很多孩子刚刚选择了第一个答案,那将不是您期望的。如果是这种情况,那么情况将倾向于沿着最下面的行聚集。当然,“看起来”对称实际上并不能保证是正确的,但这是一个不错的开始。您在母子反应之间观察到的强相关性也与此相符。
2012年

1
啊 我知道了。然后,我也会(多于一点)不愿插补现有数据,并且尽管有这样的争论,我还是建议它根本不做:gking.harvard.edu/gking/files/measure.pdf
共轭木

Answers:


2

首先要注意的是,您的变量是:“学生对母亲的教育说了什么”和“学生母亲对学生的母亲说了什么”。分别称它们为S和M,并将未观察到的母亲受教育的真实水平标记为T。

S和M都有缺失值,并且将M和S放入插补模型中,但在随后的分析中仅使用其中一个是没有错的(以下面的观察为模)。相反,总是不明智的。

这与其他三个问题分开:

  1. 缺少价值是否意味着学生对母亲一无所知?
  2. 如何使用S和M来了解T?
  3. 您是否有适当的缺失,以允许多个插补工作?

无知与缺失

您可能对T感兴趣,但您不必如此:教育程度的认识(通过S,甚至可能是M)或缺乏学生知识可能比T本身更具因果关系。插补可能是第一种明智的选择,但第二种可能也可能没有。你必须决定。

了解T

假设您实际上对T感兴趣。在没有黄金标准测量的情况下(由于您有时会怀疑M),很难知道您如何可以随意套用S和M来了解T。另一方面,如果您是愿意在M可用时将其视为正确,那么您可以使用S在包含学生其他信息的分类模型中预测M,然后在最终分析中使用M而不是S。这里要关注的是您所训练的案例中的选择偏见,这导致了第三个问题:

失踪

多重插补能否起作用取决于数据是完全随机丢失(MCAR)还是随机丢失(MAR)。S是否随机丢失(MAR)?也许不是,因为学生可能会羞于回答关于母亲缺乏教育的问题,因此跳过了这个问题。然后,仅凭该值确定是否会丢失该值,并且多重插补在这里无济于事。另一方面,如果低学历与在调查中要求和部分回答的东西例如某种收入指标)相关,那么MAR可能会更合理,多重插补可能会有所帮助。M是否随机丢失?出于同样的考虑。

最后,即使您对T感兴趣,并采用了分类方法,您仍然希望插补以适合该模型。


1

如果您要假设整个样本的“矛盾率”与被调查母亲的子样本的“矛盾率”相同,则子样本必须是随机抽取的。在您的描述中您没有说,所以我提出这个问题是因为我认为这对您如何或是否可以使用子样本中的信息得出有关整个学生样本的结论具有重要意义。

在我看来,这个矛盾问题有三个方面。

1是矛盾率。1/3的学生真的猜错了吗?

2是错误的程度-说您的母亲实际上没有完成小学课程却停在那里就读是一回事,而说自己的博士学位则没有完成小学是另一回事。

3是可以交叉检查的样本比例。如果您在20个子样本上得出这些结论,那么我敢打赌,这些估计是相当不稳定的,可能不值钱。

在我看来,您的工作将取决于您对这些问题的回答以及我最初提出的问题。例如,如果1很高,而3很高,那么我可能只是使用子样本并对其进行处理。如果1高,而2低,那么问题似乎并没有那么糟,同样,它也不值得打扰。

可能还应该知道错误是随机的还是系统的。如果学生倾向于系统地估计自己的母亲的学历不足,那么这比有时候他们完全错误地估计母亲的学历问题更大。

我已经在几篇论文中做了一些估算,结果似乎总是给自己带来更多麻烦。至少在我的领域,审阅者通常对该方法没有很好的了解,因此怀疑其使用方法。从出版物的角度来看,我觉得有时最好还是承认问题并继续前进。但是在这种情况下,您并不是真正地“估算缺失数据”,而是为变量引入了某种预测的误差方差。这是一个非常有趣的问题,并且将所有问题都放在一边,我什至不确定如果我认为这是最好的做法,我将如何处理这个问题。


1
谢谢威尔,我在原始帖子中澄清了一些事情。子样本是随机的。我从帽子中拉出3/4的数值来说明这一点。真实的统计数据较少。我可以交叉检查大约10,000个案例。我确定错误不是纯粹随机的。
Michael Bishop
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.