逻辑回归的残差和库克距离

10

是否有关于逻辑回归误差的特定假设，例如误差项的恒定方差和残差的正态性？
同样通常，当您的点的库克距离大于4 / n时，是否将其删除？如果确实删除它们，那么如何确定带有删除点的模型是否更好？

— 领主12
source

12

我不知道能否给您完整的答案，但是我可以给您一些可能有用的想法。首先，所有统计模型/测试都有假设。但是，逻辑回归并没有假设残差是正态分布的，也不是说方差是常数。而是假设数据以二项式，也就是说，伯努利试验的次数等于该精确集合的观测次数协变量值以及与该组协变量值相关联的概率。请记住，二项式的方差是。因此，如果 $\mathcal{B}(n_{x_i},p_{x_i})$ $np(1-p)$ $n$ 在协变量的不同级别上会有所不同，方差也会有所不同。此外，如果任何协变量都与响应变量相关，则概率将发生变化，因此方差也将发生变化。这些是关于逻辑回归的重要事实。

其次，通常在具有不同规格（例如，包含不同的协变量集）的模型之间进行模型比较，而不是对数据的不同子集进行模型比较。老实说，我不确定如何正确地做到这一点。对于线性模型，你可以看看2秒至查看适合的是如何更好地与排除的异常数据，但这仅是描述性的，你应该知道，将有上升。但是，使用逻辑回归时，无法使用标准。有各种各样的'pseudo- $R^2$ $R^2$ $R^2$ $R^2$ 被开发为提供类似信息的，但是它们通常被认为是有缺陷的，并不经常使用。有关存在的不同伪的概述，请参见此处。有关它们的一些讨论和批评，请参见此处。另一种可能性可能是折磨包含和不包含离群值的beta，以了解排除它们如何有助于稳定其采样分布。再一次，这仅是描述性的（即，它不会构成告诉您更喜欢哪个模型（数据的子集）的测试），并且方差必须降低。这些都是真的，对于伪 $R^2$ $R^2$ s和被套用的分布，因为您基于这些数据看起来极端而选择了要排除的那些数据。

— gung-恢复莫妮卡
source

8

1）是否有关于逻辑回归误差的特定假设，例如误差项的恒定方差和残差的正态性？

逻辑回归模型在传统意义上没有“错误”。这既违反直觉，又在方法上不一致。模型输出是拟合的概率或风险，而观察到的结果是0/1事件指标。从方法上讲，您倾向于偏低拟合概率非常高或非常低的域（对剩余距离贡献很小的量），而模型拟合算法在此类区域上的重要性更高。平方距离通常是校准逻辑回归模型的不良方法。

拟合度检验的另一种选择是Hosmer-Lemeshow检验，其中拟合值用于根据拟合风险的十进制来创建分类分区。您可以在Alan Agresti的分类数据分析或Hosmer和Lemeshow撰写的《 Logistic回归》一书中了解有关该测试的信息。另一个过程是使用学生化残差，其中平均方差关系用于通过拟合残差的反方差来对残差进行加权。对于逻辑回归，这是

{[R}_{s Ť ü d} = \frac{ÿ - μ}{\sqrt{μ （ 1个 - μ ）}}

$r_{stud} = \frac{Y - \mu}{\sqrt{\mu(1-\mu)}}$

2）同样，通常，当您的点的库克距离大于4 / n时，是否将其删除？如果确实删除它们，那么如何确定带有删除点的模型是否更好？

我从不根据敏感性分析删除点。如果我对100个人进行随机抽样，并且他们的收入和1个人恰好是亿万富翁，那么我最安全的假设是，一位亿万富翁代表了总人口的1/100。

— 亚当
source

您为什么要假设这个亿万富翁占人口的1/100？您可能可以对人口中亿万富翁的比例进行外部估算！

— kjetil b halvorsen

6

我总体上同意AdamO的评论-假设1个亿万富翁代表总人口的1/100是完全可以的。但是，如果1位亿万富翁的出现使数据严重扭曲，以致其他99个人的预测受到影响，我将删除1位亿万富翁。我宁愿错误预测异常值，而不是其他所有人。

话虽如此，如果您使用Cook的D值（即> 4 / df的任何值）删除数据点，则可以对两个模型使用ROC曲线下的面积来检查改进。

— 桑杰·萨拉瓦南（Sanjay Saravanan）
source

1

（+1）用自然样条对响应和收入的对数奇数之间的关系进行建模，或者预先转换收入，这是另一种避免亿万富翁过多影响他人预测的方法。删除他意味着您很高兴不为其他亿万富翁做出预测（足够公平），而不是为他们做出错误的预测。

— Scortchi-恢复莫妮卡

具有讽刺意味的是，当涉及到预测二进制事件时，确实可以排除有影响的观察结果，从而可以更好地校准风险预测。但是，排除有影响的观察将减少对风险预测的区分。后者无疑更重要。在预测某个事件的风险（0或1，未连续评估）时，最好的预测将使案例的预测更接近1，而控件的预测更接近0。高影响点通常是有效的在这样做。

— AdamO，2015年