缺少预测变量的多元回归


9

假设我们得到了以下形式的一组数据 (y,x1,x2,,xn)(y,x1,x2,,xn1)。我们被赋予了预测的任务y 根据的值 x。我们估计两个回归,其中:

(1)y=f1(x1,,xn1,xn)(2)y=f2(x1,,xn1)

我们还估计了一个回归,该回归预测了 xn 根据的值 (x1,,xn1), 那是:

(3)xn=f3(x1,,xn1)

假设现在给我们的值为 (x1,,xn1),那么我们将有两种不同的方法来预测 y

(4)y=f1(x1,,xn1,f3(x1,,xn1))(5)y=f2(x1,,xn1)

一般来说哪一个更好?

我猜第一个方程会更好,因为它利用了两种形式的数据点的信息,而第二个方程仅利用了具有 n1预测值。我的统计学训练很有限,因此我想寻求一些专业建议。

另外,一般而言,处理信息不完整的数据的最佳方法是什么?换句话说,我们如何才能从全部没有值的数据中提取最多的信息n 尺寸?


用实际值估算还是用估算值-您决定:)
博士

真的就是这么简单吗?
李小文

答案可能取决于情况。缺少多少数据?您总体拥有多少数据?您有多少个预测变量?
Joel W.

Answers:


6

+1,我认为这是一个非常有趣且明确说明的问题。但是,更多信息将帮助我们对这种情况进行思考。

例如,之间有什么关系 xny?很可能没有一个,在这种情况下,回归(1) 相对于回归没有优势 (2)。(实际上,这是一个非常小的缺点,在某种意义上,标准误差会稍大一些,因此,平均而言,β可能会比其真实值略远。)如果存在函数映射xny,那么根据定义,那里就有真实的信息,然后回归 (1) 在初始情况下会更好。

接下来,之间的关系是什么性质 (x1,,xn1)xn?有一个吗?例如,当我们进行实验时,(通常)我们尝试为解释变量值的每种组合分配相等数量的学习单位。(这种方法使用了IV级水平的笛卡尔乘积,被称为“全阶乘”设计;在某些情况下,故意混淆级别以保存数据,称为“ 分数阶乘 ”设计。)如果解释变量是正交的,那么您的第三次回归将得出的绝对值绝对为0。另一方面,在观察性研究中,协变量几乎总是相关的。相关性越强,则存在的信息越少xn。这些事实将调节回归的相对优点(1) 和回归 (2)

但是,(不幸的是)它比这更复杂。多重回归中重要但困难的概念之一是多重共线性。您是否应该尝试估计回归(4),您会发现您具有完美的多重共线性,并且您的软件将告诉您设计矩阵是不可逆的。因此,虽然回归(1) 相对于回归可能会提供优势 (2),回归 (4) 将不会。

更有趣的问题(也是您要问的问题)是,如果使用回归 (1) 对...做出预测 y 使用估计的 xn 回归预测输出的值 (3)?(也就是说,您不是在估计回归(4)—您正在插入回归估计的预测方程的输出 (3) 进入预测模型 (4)。)问题是您实际上并没有在这里获得任何新信息。无论第一个存在什么信息n1 每个观察值的预测值已通过回归优化使用 (2),所以没有收益。

因此,第一个问题的答案是,您最好还是回归 (2)为您的预测节省不必要的工作。请注意,我一直在以一种相当抽象的方式解决这个问题,而不是解决您描述的由某人交给您两个数据集的具体情况(我无法想象这种情况的发生)。取而代之的是,我认为这个问题是试图对回归的本质有相当深入的了解。但是,偶尔会发生的情况是,某些观察值在所有预测变量上都有值,而其他一些观察值(在同一数据集中)却缺少某些预测变量上的某些值。在处理纵向数据时,这尤其常见。在这种情况下,您想研究多重插补


感谢Gung的详细回答,您将帮助我修改问题的措辞。一旦我完全解释了您的回答,我会回复。供您参考,这是有关灯泡价格的观察性研究。xn包括灯泡的使用寿命,亮度和色温。信息是从通常不提供所有信息的零售商那里收集的,从而导致缺少预测变量。尽管如此,我们仍在努力充分利用收集到的信息。
李小文2012年

1
好的,我认为这只是了解回归。我将研究多种归因。
gung-恢复莫妮卡

感谢Gung的见解。没错,使用公式4不会获得任何新信息。归因恰恰是我所需要的。没错,我确实遇到了多重共线性,给我一个很大的系数p值。然后,我面临的选择是减少变量的数量以获得较小的系数p值,或者获得较大的p值。r2和更大的页。我想生活充满了权衡。
小文丽

再次感谢您对回归的抽象讨论。如果我们将统计数据视为一种发现真相的方法,那么统计数据可能会非常吸引人。处理

您应该检查参数分数插补。这是爱荷华州的Jae Kwang Kim所做的工作,对于这种情况可能是完美的。参见biomet.oxfordjournals.org/content/98/1/119.abstract
StatsStudent 2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.