转换连续变量以进行逻辑回归


11

我有大量调查数据,一个二进制结果变量和许多解释性变量,包括二进制和连续变量。我正在建立模型集(使用GLM和混合GLM进行实验),并使用信息理论方法来选择顶级模型。我仔细检查了说明(连续的和分类的)之间的相关性,而我只使用在同一模型中Pearson或Phicorr系数小于0.3的那些。我想给我所有的连续变量一个竞争顶级模型的机会。以我的经验,基于偏斜转换那些需要它的人可以改善他们参与的模型(降低AIC)。

我的第一个问题是:由于变换提高了logit的线性度,所以此改进是否在进行?还是通过使数据更加对称,校正偏斜以某种方式改善了解释变量的平衡?我希望我能理解其背后的数学原因,但就目前而言,如果有人可以轻松地解释这一点,那就太好了。如果您有任何我可以使用的参考,我将不胜感激。

许多互联网网站都说,由于正常性不是二进制逻辑回归的假设,因此请勿变换变量。但是我觉得,通过不对变量进行转换,与其他变量相比,我处于不利地位,这可能会影响顶级模型,并改变推理(好吧,通常不会,但是在某些数据集中会)。我的一些变量在对数转换时性能更好,一些在平方时(偏斜的不同方向),另一些未转换时。

有人可以给我一个指导原则,在为逻辑回归转换解释变量时要注意些什么,如果不这样做,为什么不这样做呢?


2
FF110P(Y=1|β,X)=F(Xβ)本文

尽管是在不同的上下文中编写的,但您要的大部分内容都在我的答案(或答案的链接)中:正态分布的X和Y是否更有可能导致正态分布的残差?
gung-恢复莫妮卡

Answers:


3

xlog(x)

由于您说自己有“大数据”,因此您可以查看样条,让数据谈论转换……例如,在R中打包mgcv。但是即使使用这种技术(或其他方法来自动搜索转换),最终的测试是问自己什么是科学的道理。¿您所在领域的其他人如何处理相似数据?


感谢您支持我的担心:的确,我对生物学意义有所了解。问题是,我实际上有两个相关的数据集,我想同时从这两个数据中得出结论。但是在一个子集中,密度变量在未转换的模型中最佳,而在另一对数转换中则最佳。对数转换改善了该变量具有较低值的数据集中的关系,因此除非我在两个变量中都保持不变,否则很难调和我认为的这两个数据集。
Zsuzsa 2012年

1
一个领域的专家很少能够知道先验变量的“正确”转换。我几乎从未见过线性关系,因此当样本量足够大时,我会使用回归样条放宽此假设。我用图片来解释结果。
Frank Harrell 2014年

3

关键问题是在现实世界中应该代表什么数字,以及这些变量与因变量之间的假设关系是什么。您可以通过“清理”数据来改善模型,但是如果不能更好地反映实际情况,那么您就失败了。也许数据的分布意味着您的建模方法不正确,并且您需要完全不同的方法,也许您的数据有问题。

如果变量的corr> .3为何,您为什么要删除它们呢?也许那些事情确实是相关的,并且两者对于因变量都很重要。您可以使用代表相关变量联合贡献的索引或函数来处理。看来您是在盲目地基于任意统计标准丢弃信息。为什么不使用corr> .31或.33?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.