我有大量调查数据,一个二进制结果变量和许多解释性变量,包括二进制和连续变量。我正在建立模型集(使用GLM和混合GLM进行实验),并使用信息理论方法来选择顶级模型。我仔细检查了说明(连续的和分类的)之间的相关性,而我只使用在同一模型中Pearson或Phicorr系数小于0.3的那些。我想给我所有的连续变量一个竞争顶级模型的机会。以我的经验,基于偏斜转换那些需要它的人可以改善他们参与的模型(降低AIC)。
我的第一个问题是:由于变换提高了logit的线性度,所以此改进是否在进行?还是通过使数据更加对称,校正偏斜以某种方式改善了解释变量的平衡?我希望我能理解其背后的数学原因,但就目前而言,如果有人可以轻松地解释这一点,那就太好了。如果您有任何我可以使用的参考,我将不胜感激。
许多互联网网站都说,由于正常性不是二进制逻辑回归的假设,因此请勿变换变量。但是我觉得,通过不对变量进行转换,与其他变量相比,我处于不利地位,这可能会影响顶级模型,并改变推理(好吧,通常不会,但是在某些数据集中会)。我的一些变量在对数转换时性能更好,一些在平方时(偏斜的不同方向),另一些未转换时。
有人可以给我一个指导原则,在为逻辑回归转换解释变量时要注意些什么,如果不这样做,为什么不这样做呢?