Answers:
我不知道能否给您完整的答案,但是我可以给您一些可能有用的想法。首先,所有统计模型/测试都有假设。但是,逻辑回归并没有假设残差是正态分布的,也不是说方差是常数。而是假设数据以二项式,也就是说,伯努利试验的次数等于该精确集合的观测次数协变量值以及与该组协变量值相关联的概率。请记住,二项式的方差是。因此,如果在协变量的不同级别上会有所不同,方差也会有所不同。此外,如果任何协变量都与响应变量相关,则概率将发生变化,因此方差也将发生变化。这些是关于逻辑回归的重要事实。
其次,通常在具有不同规格(例如,包含不同的协变量集)的模型之间进行模型比较,而不是对数据的不同子集进行模型比较。老实说,我不确定如何正确地做到这一点。对于线性模型,你可以看看2秒至查看适合的是如何更好地与排除的异常数据,但这仅是描述性的,你应该知道,将有上升。但是,使用逻辑回归时,无法使用标准。有各种各样的'pseudo-被开发为提供类似信息的,但是它们通常被认为是有缺陷的,并不经常使用。有关存在的不同伪的概述,请参见此处。有关它们的一些讨论和批评,请参见此处。另一种可能性可能是折磨包含和不包含离群值的beta,以了解排除它们如何有助于稳定其采样分布。再一次,这仅是描述性的(即,它不会构成告诉您更喜欢哪个模型(数据的子集)的测试),并且方差必须降低。这些都是真的,对于伪s和被套用的分布,因为您基于这些数据看起来极端而选择了要排除的那些数据。
1)是否有关于逻辑回归误差的特定假设,例如误差项的恒定方差和残差的正态性?
逻辑回归模型在传统意义上没有“错误”。这既违反直觉,又在方法上不一致。模型输出是拟合的概率或风险,而观察到的结果是0/1事件指标。从方法上讲,您倾向于偏低拟合概率非常高或非常低的域(对剩余距离贡献很小的量),而模型拟合算法在此类区域上的重要性更高。平方距离通常是校准逻辑回归模型的不良方法。
拟合度检验的另一种选择是Hosmer-Lemeshow检验,其中拟合值用于根据拟合风险的十进制来创建分类分区。您可以在Alan Agresti的分类数据分析或Hosmer和Lemeshow撰写的《 Logistic回归》一书中了解有关该测试的信息。另一个过程是使用学生化残差,其中平均方差关系用于通过拟合残差的反方差来对残差进行加权。对于逻辑回归,这是
2)同样,通常,当您的点的库克距离大于4 / n时,是否将其删除?如果确实删除它们,那么如何确定带有删除点的模型是否更好?
我从不根据敏感性分析删除点。如果我对100个人进行随机抽样,并且他们的收入和1个人恰好是亿万富翁,那么我最安全的假设是,一位亿万富翁代表了总人口的1/100。
我总体上同意AdamO的评论-假设1个亿万富翁代表总人口的1/100是完全可以的。但是,如果1位亿万富翁的出现使数据严重扭曲,以致其他99个人的预测受到影响,我将删除1位亿万富翁。我宁愿错误预测异常值,而不是其他所有人。
话虽如此,如果您使用Cook的D值(即> 4 / df的任何值)删除数据点,则可以对两个模型使用ROC曲线下的面积来检查改进。