将OLS回归应用于连续响应后,可以通过依次运行每个协变量上的残差回归来建立多元回归方程。我的问题是,有没有办法通过逻辑回归残差进行逻辑回归呢?
也就是说,如果我想使用标准的广义线性建模方法来估计,有没有一种方法可以对x进行逻辑回归并获得伪残差R_1,然后对z回归R_1到得到逻辑回归系数的无偏估计量。对教科书或文献的参考将不胜感激。
将OLS回归应用于连续响应后,可以通过依次运行每个协变量上的残差回归来建立多元回归方程。我的问题是,有没有办法通过逻辑回归残差进行逻辑回归呢?
也就是说,如果我想使用标准的广义线性建模方法来估计,有没有一种方法可以对x进行逻辑回归并获得伪残差R_1,然后对z回归R_1到得到逻辑回归系数的无偏估计量。对教科书或文献的参考将不胜感激。
Answers:
在标准多元线性回归中,两步拟合普通最小二乘(OLS)估计的能力来自Frisch-Waugh-Lovell定理。该定理表明,多元线性模型中特定预测变量的系数估计等于通过将响应残差(响应变量相对于其他解释变量的回归所得的残差)与预测残差(残差)进行回归得到的估计值预测变量相对于其他解释变量的回归)。显然,您正在寻求与此定理的类比,该定理可用于逻辑回归模型。
在模型的这种表征中,潜在响应变量是不可观察的,相反,我们观察到指标,该指标告诉我们潜在响应是否为正。这种形式的模型看起来与多元线性回归相似,不同之处在于我们使用了略有不同的误差分布(逻辑分布而不是正态分布),更重要的是,我们仅观察到一个指标,显示潜伏反应是否为正。
这对于创建模型的两步拟合的任何尝试都会产生问题。Frisch-Waugh-Lovell定理与其他解释变量相比,取决于获得感兴趣的响应和预测变量的中间残差的能力。在当前情况下,我们只能从“分类的”响应变量中获得残差。创建用于逻辑回归的两步拟合过程将需要您使用此分类响应变量中的响应残差,而无需访问基础潜在响应。在我看来,这似乎是一个主要障碍,尽管并没有证明不可能,但似乎不可能分两步对模型进行拟合。
下面,我将向您介绍找到两步过程以拟合逻辑回归所需的条件。我不确定是否有解决此问题的方法,或者是否有不可能的证明,但是这里的材料应该使您了解所需的内容。
两步逻辑回归拟合看起来像什么?假设我们要为逻辑回归模型构建两步拟合,其中通过每一步的最大似然估计来估计参数。我们希望该过程涉及一个适合以下两个模型的中间步骤:
我们估计这些模型的系数(通过MLE),从而得出中间拟合值。然后在第二步中拟合模型:
如所指定的,该过程具有许多固定元素,但是这些步骤中的密度函数和未指定(尽管它们应该是不依赖于数据的零均值分布)。为了在这些约束条件下获得两步拟合方法,我们需要选择和以确保此两步模型拟合算法中的MLE与从单步逻辑回归模型获得的MLE相同以上。
为了查看是否可行,我们首先编写第一步中的所有估计参数:
令因此第二步的对数似然函数为:
我们要求此函数的最大值是多元逻辑回归模型的MLE。换句话说,我们要求:
我将其留给其他人来确定是否有解决此问题的方法,或无解的证明。我怀疑逻辑回归中潜在响应变量的“分类”将使其无法找到两步过程。
我可能会误解这个问题。我怀疑您是否可以通过OP指定的方式通过对残差进行回归来建立线性回归方程。仅当预测变量彼此独立时,OP的方法才有效。
为了使其工作,假设是结果向量,是模型中已经存在的预测变量的模型矩阵,并且您想包括。您需要回归残差的回归在对剩余的回归上获得OLS系数。
这是一个简单的例子:
set.seed(12345)
n <- 5000
x1 <- rnorm(n)
x2 <- .5 * x1 + rnorm(n) # Correlated predictors
y <- x1 + x2 + rnorm(n)
使用OLS拟合模型:
coef(lm(y ~ x1 + x2))
(Intercept) x1 x2
0.001653707 1.037426007 0.996259446
残差回归:
coef(lm(residuals(lm(y ~ x1)) ~ x2))
(Intercept) x2
0.001219232 0.818774874
这是错误的,您需要适合:
coef(lm(residuals(lm(y ~ x1)) ~ residuals(lm(x2 ~ x1))))
(Intercept) residuals(lm(x2 ~ x1))
-6.707350e-17 9.962594e-01
它返回x2的正确系数,在给定x2差异的情况下,它与y的预期差异对齐,并保持x1不变(将其从y和x1中取出)。
此外,在逻辑回归中,问题甚至更大,因为即使在没有混杂关系的情况下,逻辑回归系数也会遭受遗漏的变量偏差,请参见此处和此处,因此除非所有结果的预测变量都在模型中,否则无法获得真实人口参数的无偏估计。而且,我不知道模型中的任何残差都适合第二次逻辑回归,所有值都在0到1之间。
关于残差回归的一些参考:
我希望我不会误解您的问题,因为我的答案将在一定程度上改变您措辞主题的措辞。
我认为您正在尝试通过一次添加一个自变量来构建回归模型。并且,通过观察哪个预期变量与Y和X1之间的第一次回归的残差具有最高的相关性,可以做到这一点。因此,与此第一残差具有最高相关性的变量将为X2。因此,现在您有了一个带有两个自变量X1和X2的模型。并且,您继续执行此精确过程以选择X3,X4等。这是一个逐步的过程。
您可以使用Logistic回归进行完全相同的操作,原因很简单,因为Logistic回归几乎是一种OLS回归,其中因变量是奇数(或logit)的对数。但是,Y是否为对数不影响上述逐步执行过程。
OLS使平方误差的总和最小化以适合实际数据。Logit回归使用最大似然过程生成拟合度,该拟合度与OLS并没有什么不同。并且,(拟合机制)也不应影响逐步构建过程,该过程允许您构建多重回归模型,无论后者是OLS回归还是Logit回归。