假设我们得到了以下形式的一组数据 (y,X1个,X2,⋯ ,Xñ) 和 (y,X1个,X2,⋯ ,Xn − 1)。我们被赋予了预测的任务ÿ 根据的值 X。我们估计两个回归,其中:
ÿÿ=F1个(X1个,⋯ ,Xn − 1,Xñ)=F2(X1个,⋯ ,Xn − 1)(1)(2)
我们还估计了一个回归,该回归预测了 Xñ 根据的值 (X1个,⋯ ,Xn − 1), 那是:
Xñ=F3(X1个,⋯ ,Xn − 1)(3)
假设现在给我们的值为 (X1个,⋯ ,Xn − 1),那么我们将有两种不同的方法来预测 ÿ:
ÿÿ=F1个(X1个,⋯ ,Xn − 1,F3(X1个,⋯ ,Xn − 1))=F2(X1个,⋯ ,Xn − 1)(4)(5)
一般来说哪一个更好?
我猜第一个方程会更好,因为它利用了两种形式的数据点的信息,而第二个方程仅利用了具有 n − 1预测值。我的统计学训练很有限,因此我想寻求一些专业建议。
另外,一般而言,处理信息不完整的数据的最佳方法是什么?换句话说,我们如何才能从全部没有值的数据中提取最多的信息ñ 尺寸?