这个问题有点笼统,任重而道远,但请耐心等待。
在我的应用程序中,我有许多数据集,每个数据集包含约20,000个数据点,这些数据点具有约50个特征和一个相关的二进制变量。我正在尝试使用正则逻辑回归(R包glmnet)对数据集建模
作为分析的一部分,我创建了如下的残差图。对于每个功能,我根据该功能的值对数据点进行排序,将数据点分为100个存储桶,然后计算每个存储桶内的平均输出值和平均预测值。我绘制这些差异。
这是残差图示例:
在上图中,特征的范围为[0,1](浓浓度为1)。如您所见,当特征值较低时,模型似乎偏向于高估1输出的可能性。例如,在最左边的存储桶中,模型将概率高估了大约9%。
有了这些信息,我想以一种简单的方式更改功能定义,以大致纠正这种偏差。更换等变更
要么
我怎样才能做到这一点?我正在寻找一种通用的方法,以便人类可以快速滚动浏览所有约50个图并进行更改,然后对所有数据集执行此操作,并经常重复进行此操作,以使模型随着数据随时间的变化而保持最新。
作为一个普遍的问题,这是否是正确的方法?Google搜索“逻辑回归残差分析”不会返回许多具有良好实践建议的结果。他们似乎专心回答以下问题:“此模型是否合适?” 并提供Hosmer-Lemeshow等各种测试来回答。但是我不在乎我的模型是否好,我想知道如何使其更好!