Answers:
我不同意评论中的其他答案,所以我给出自己的观点是公平的。令为响应(好/坏账),为协变量。
对于逻辑回归,模型如下:
考虑如何收集数据:
对于以上模型,这两个都可以,因为您仅对的分布建模。这些将被称为前瞻性研究。
或者:
(您也可以根据和某些变量选择数据:这将是分层的病例对照研究,并且处理起来要复杂得多,因此在此不再赘述)。X
流行病学有一个很好的结果(参见Prentice和Pyke(1979)),对于一个病例对照研究,可以通过logistic回归找到的最大似然估计,即使用前瞻性模型作为回顾性数据。
那么这与您的问题有什么关系?
好吧,这意味着,如果您能够收集更多数据,则可以查看不良账目并仍然使用logistic回归来估算(但您需要调整以解决过度表示)。假设每个额外帐户的费用为1美元,那么与仅查看所有帐户相比,这样做可能更具成本效益。 α
但是另一方面,如果您已经拥有所有可能的数据,则没有必要进行分层:您只会丢弃数据(给出更差的估计值),然后要尝试估计。
渐近地,正负模式的比例基本上无关紧要。主要是当少数派样本的样本太少而无法充分描述其统计分布时,才会出现此问题。使数据集更大通常可以解决问题(在可能的情况下)。
如果无法做到这一点,最好的办法是对数据重新采样以获得平衡的数据集,然后对分类器的输出进行乘性调整以补偿训练集频率和操作相对分类频率之间的差异。尽管您可以计算(渐近的)最佳调整因子,但实际上最好是使用交叉验证来调整调整(因为我们正在处理的是有限的实际情况而不是渐近的情况)。
在这种情况下,我经常使用一个模型委员会,每个模型都接受所有少数派模式的训练,并且对多数派模式使用与少数派模式相同大小的不同随机样本。在选择多数模式的单个子集时,这可以防止运气不好。
从理论上讲,如果“好”和“坏”的比例大小大致相似,您将能够更好地进行区分。您可能可以通过分层采样,对不良情况进行过度采样然后重新加权以稍后返回到真实比例来实现这一目标。
这会带来一些风险。特别是您的模型很可能会将个人标记为“潜在不良”,大概是那些在到期时未支付水电费的人。重要的是要正确识别执行此操作时错误的影响:尤其是模型会将多少个“良好客户”标记为“潜在不良”,并且如果您没有扭曲自己的加权,则不太可能出现重新加权的情况通过分层抽样建立模型。
您可以通过多种方式来考虑逻辑回归。我最喜欢的方式是认为您的响应变量遵循伯努利分布,概率为。而是某些预测变量的函数。更正式地:p 我p 我
p 我 = 分对数- 1(一个+ b 1 X 1 + 。。。+ b Ñ X Ñ)分对数- 1 = EXP (X )
现在,故障率低(不良帐户)是否重要?正如某些人已经指出的,只要您的样本数据是均衡的,那不是真的。但是,如果您的数据不平衡,那么如果您没有考虑某些选择效果,则获取更多数据可能几乎没有用。在这种情况下,您应该使用匹配,但是缺乏平衡可能会使匹配变得毫无用处。另一种策略是尝试找到自然的实验,因此您可以使用工具变量或回归离散度设计。
最后但并非最不重要的一点是,如果您的样本数量均衡或没有选择偏见,您可能会担心不良账目很少见。我认为5%并不罕见,但是以防万一,请看Gary King关于运行稀有事件物流的论文。在R的Zelig程序包中,您可以运行罕见的事件逻辑。
好的,所以我从事欺诈检测工作,因此这种问题对我而言并不陌生。我认为机器学习社区对于不平衡的数据有很多话要说(因为课堂上是不平衡的)。因此,我认为已经提到了一些非常简单的策略,还有一些巧妙的想法,还有一些出路。我什至不假装知道这对于您的问题的渐近性意味着什么,但是在逻辑回归中它总是给我带来合理的结果。可能不知道那里有纸。
我认为这是您的选择:
无论如何,我已经使用了所有这些方法,但是我发现最简单的方法是无论如何都只是为逻辑回归加权问题。您可以做的一件事就是对模型进行检查:
-Intercept/beta
那应该是给定变量ceteris paribus的决策边界(在任一类中为50%的概率)。如果这没有道理,例如,决策边界在严格为正的变量上为负数,则您的逻辑回归中存在偏差,需要纠正。