在Logistic回归中用WoE(证据权重)替换变量


14

这是我的一些同事遵循的有关实践或方法的问题。在建立逻辑回归模型时,我已经看到人们用各自的证据权重(WoE)代替了分类变量(或分类的连续变量)。据说这样做是为了在回归变量和因变量之间建立单调关系。现在,据我了解,一旦建立了模型,方程式中的变量就不是数据集中的变量。相反,方程式中的变量现在在隔离因变量时就显得很重要或很重要

我的问题是:我们现在如何解释模型或模型系数?例如,对于以下等式:

log(p1p)=β0+β1x1

我们可以说,奇数的比率为在可变增加1个单位相对增加X 1exp(β1) x1

但是,如果将变量替换为其WoE,则解释将更改为:变量的重要性/重量增加1单位时,奇数比的相对增加

我已经在互联网上看到了这种做法,但是没有一个地方找到这个问题的答案。来自该社区本身的此链接与某个类似的查询相关,其中有人写道:

WoE与优势比的自然对数显示线性关系,优势比是对数回归中的因变量。因此,当我们使用WoE而不是变量的实际值时,逻辑回归中不会出现模型错误指定的问题。

但是我仍然没有得到解释。请帮助我了解我所缺少的。


exp(β1)x1x1

β0

赔率是p /(1-p),因此如果p(x)= exp(𝛽0 + 𝛽1x)并且p(x + 1)= exp(𝛽0 + 𝛽1x + 𝛽1),则请注意p(x + 1)= exp (𝛽0 + 𝛽1x)exp(𝛽1),最后是优势比p(x + 1)/ p(x)= exp(𝛽1),如stats.stackexchange.com/users/7290/gung
hwrd

Answers:


12

WoE方法包括两个步骤:

1-将(连续的)变量分为几个类别或将(离散的)变量分为几个类别(在两种情况下,您都假定一个类别中的所有观测值对因变量具有“相同”的影响)
2-计算WoE每个类别的值(然后将原始x值替换为WoE值)

WoE转换具有(至少)三个积极作用:
1)它可以转换一个自变量,以便与因变量建立单调关系。实际上,它的作用还不止于此-为了确保单调关系,将其“重新编码”为任何有序的度量(例如1,2,3,4 ...)就足够了,但是WoE转换实际上将类别分类为“逻辑” “对于逻辑回归而言很自然的标度
2)对于具有太多(稀疏填充)离散值的变量,可以将它们分组为类别(密集填充),并且WoE可以用于表示整个类别的信息
3)每个类别对因变量的(单变量)影响可以在类别之间和各个变量之间进行简单比较,因为WoE是标准化值(例如,您可以将已婚人士的WoE与体力劳​​动者的WoE进行比较)

它还具有(至少)三个缺点:
1)由于归类到少数类别而导致的信息丢失(变异)
2)这是“单变量”度量,因此它没有考虑自变量之间的相关性
3)易于根据创建类别的方式操纵(过度拟合)变量的影响

按照惯例,回归的beta(其中x已被WoE代替)本身不会被解释,但会与WoE相乘以获得“分数”(例如,变量“婚姻状况”的beta可与WoE相乘)。 “已婚人员”组查看已婚人员的得分;变量“职业”的beta可以乘以“体力劳动者”的WoE来查看体力劳动者的得分。然后,如果您对已婚体力劳动者的得分感兴趣,您将这两个分数相加,看看对结果有多大影响)。分数越高,等于1的结果的可能性越大。


1
(+1)重新编码预测变量以使其与响应具有单调关系为何有优势?
Scortchi-恢复莫妮卡

1
@Scortchi我可以举一个例子-自变量是人的身高(以厘米为单位),人们要买漂亮的衣服,因变量将是一个二进制事件-无论他们是否可以购买合适和舒适的衣服。显然,身材矮小的人和身材高大的人很难买到合适的衣服,而中间的人则很容易做到。通过简单的回归(没有交互作用且没有变换),您只能建模购买合适衣服的概率随人的身高而增加或减少的方法
所罗门国王的马

1
人们通常不使用预测变量的非单调变换-也不是在经验模型中。包括交互可以消除或引入条件非单调关系,就像包括其他预测变量一样。但是用多项式或样条基函数表示预测变量是允许它们的直接方法。另一个是将其分类,然后使用例如参考级编码将其视为分类。至少,最后一个比这种WoE转换要简单得多。没有人共享不利于...
Scortchi-恢复莫妮卡

1
...根据响应定义预测变量而产生的推论和可解释性;并且即使边缘关系是单调的,也都允许对非单调的条件关系进行建模(反之亦然)。我想我要了解的是WoE转换对我来说似乎是解决问题的一种解决方案。有没有一种情况比使用更广泛的方法能产生更好的预测?-尽管与您在此处回答的问题不同(也许是stats.stackexchange.com/q/166816/17230)。
Scortchi-恢复莫妮卡

如果您已经有分类数据怎么办?那么“建立单调关系”的唯一优势是吗?看来,WoE的关键组成部分实际上已在分箱过程中
information_interchange,

7

在逻辑回归中使用WOE的合理性是生成有时称为半幼稚贝叶斯分类器(SNBC)的东西。这篇博客文章的开头很好地解释了事情:http : //multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/

模型中的beta参数是由于存在其他预测变量而导致的每个幼稚效应(又称证据权重)的线性偏差,它们可以解释为由于存在特定预测变量而导致的对数赔率的对数线性变化。其他预测因素。


1

证据权重(WoE)是执行变量转换和选择的强大技术。它广泛用于信用评分中,以衡量好客户与坏客户之间的分离程度(变量)。优点::-处理缺失值处理离群值的变换是基于分布的对数值。通过使用适当的装仓技术,不需要虚拟变量,它可以在独立和从属之间建立单调关系。

mono_bin()=用于数字变量。char_bin()=用于字符变量。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.