Logistic回归残差分析


12

这个问题有点笼统,任重而道远,但请耐心等待。

在我的应用程序中,我有许多数据集,每个数据集包含约20,000个数据点,这些数据点具有约50个特征和一个相关的二进制变量。我正在尝试使用正则逻辑回归(R包glmnet)对数据集建模

作为分析的一部分,我创建了如下的残差图。对于每个功能,我根据该功能的值对数据点进行排序,将数据点分为100个存储桶,然后计算每个存储桶内的平均输出值和平均预测值。我绘制这些差异。

这是残差图示例:

在上图中,特征的范围为[0,1](浓浓度为1)。如您所见,当特征值较低时,模型似乎偏向于高估1输出的可能性。例如,在最左边的存储桶中,模型将概率高估了大约9%。

有了这些信息,我想以一种简单的方式更改功能定义,以大致纠正这种偏差。更换等变更

xx

要么

xfa(x)={a if x<a x else

我怎样才能做到这一点?我正在寻找一种通用的方法,以便人类可以快速滚动浏览所有约50个图并进行更改,然后对所有数据集执行此操作,并经常重复进行此操作,以使模型随着数据随时间的变化而保持最新。

作为一个普遍的问题,这是否是正确的方法?Google搜索“逻辑回归残差分析”不会返回许多具有良好实践建议的结果。他们似乎专心回答以下问题:“此模型是否合适?” 并提供Hosmer-Lemeshow等各种测试来回答。但是我不在乎我的模型是否好,我想知道如何使其更好!

Answers:


4

您真的不能以这种方式评估逻辑回归中的偏差。仅期望对数几率或对数分数log(p /(1-p))进行逻辑回归。比例将倾斜,因此看起来有偏差。您需要根据对数优势来绘制残差。


如何合并存储桶中对数奇数残差?算术平均值?这让我有些不安。直观地,如果残差分析没有偏差,那么我希望当模型预测Pr [y = 1] <0.2时,y应当等于1,且概率小于0.2。但是您的回答似乎暗示事实并非如此。我理解正确吗?
dshin 2012年

最好将其发布为评论。
概率

没有戴维,除了0.2的可能性外,它没有其他含义,也许我的编辑使它更加清楚。
约翰

抱歉,我还是有些困惑。我对无偏模型的直观理解是,如果模型在大量数据点中的每个数据点上预测p = 0.2,则这些数据点中的20%应该具有y = 1。这种理解正确吗?如果是这样,那么看来我的绘图方法应该正确显示偏差。如果没有,那我对“偏见”这个概念就不会很满意!如果无偏模型读数为0.2并没有告诉我y = 1的概率,那么无偏有什么好处?
dshin 2012年

是的,20%应该具有y = 1。但这并不会持续下去,反而会有所减少。您认为在概率空间中哪个方向偏离了多少?如果没有偏见,它将平均落在.2:1或0:.2的某个位置。但是,正如您所看到的那样,这些空间的大小往往会在更大的区域中距离更远。在logit空间中,距离应等于+或-。
约翰(John

2

几乎没有任何通用软件可以执行此操作。最有可能是因为没有解决回归问题的通用理论。因此,这更像是“我会做什么”类型的答案,而不是理论上扎根的程序。

您生成的图基本上是具有100个bin的可视HL测试,但是使用单个预测变量而不是预测的概率进行合并。这意味着您的程序很可能会继承HL测试的某些属性。

您的程序听起来很合理,尽管您应该意识到“过分适合”您的标准。您的标准作为诊断程序的用处也较小,因为它已成为估算过程的一部分。同样,每当凭直觉做某事时,都应尽可能详细地写下决策过程。这是因为您可能会发现通用过程或理论的种子,这些种子或通用过程或理论在开发时会导致更好的过程(相对于某些理论而言,更为自动化和最佳)。

我认为一种方法是首先减少需要调查的地块数量。一种方法是将每个变量拟合为三次样条,然后研究具有非零非线性估计的图。给定数据点的数量,这对于非线性也很容易自动修复。这会将您的模型从50扩展到200 + 50k,其中k是结数。您可以认为这是对“真实”转换应用了“统计泰勒级数展开”。

如果您的诊断静止图像在此之后看起来不好,那么我将尝试添加交互条件。

您的问题的某些部分似乎更多是关于编写交互式程序的,这比这里更多的是stackoverflow的领域。搜索探索性数据分析工具也可能很有用,因为这些工具更有可能具有您可以“附带使用”的功能。


感谢您的回复。我将研究三次样条曲线的想法。我在线性回归设置中采用了这种“查看图并调整特征”的方法,在该方法中,如何实现更好的拟合似乎更为明显。例如,如果您看到一个曲棍球杆,很明显,应用f_a(x)校正会带来更好的拟合度。通常,来自问题领域的知识与该决定相吻合:例如,如果您从收入中预测幸福,那么限制收入是有意义的,除非您认为亿万富翁比百万富翁幸福1000倍。
dshin 2012年

但是当我切换到逻辑回归设置时,我意识到我不确定如何转移我的方法。因此,此提交。
dshin 2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.