我进行了一项大型调查,其中询问了学生,尤其是母亲的教育水平。有些人跳过了,有的回答错误。我知道这一点,因为后来有一个最初受访者母亲的子样本接受了采访,并提出了同样的问题。(我敢肯定,与母亲的回答有关的错误也要少一些。)
我的挑战是决定如何最好地利用第二个更可靠的数据源。至少,与只能依靠完整案例的情况相比,我可以使用它来更智能地估算丢失的数据。但是,如果我可以交叉核对数据的孩子中有3/4回答“我的母亲从未读完小学”的孩子与他们母亲的回答相矛盾,那么看来我应该使用估算来创建多个数据集以捕获那里的不确定性。[补充:我说的是3/4,但是现在我已经检查了数据,我还想告诉您,接近40%的数据是不对的]
我个人将在混合模型中使用母亲的教育作为预测因子,但是如果有人对其他情况有话要说,我也希望了解它们。
我很想收到有关广泛技巧或特定方面的建议。谢谢!
更新:尽管感谢Will和Conjugate_Prior的回答,但我暂时还没有解决问题,但我希望获得更多具体和技术反馈。
下面的散点图将让您了解在存在10,000个案例的情况下这两个变量如何关联。它们嵌套在100余所学校中。它们的相关系数为0.78,学生的答案-均值:5.12 sd = 2.05,妈妈的答案,均值= 5.02,sd = 1.92在大约15%的情况下,学生的答案缺失。