为什么要在逻辑回归中对分类预测变量进行WOE转换?


10

类别变量的证据权重(WOE)转换何时有用?

该示例可以在WOE转换中看到

(因此,对于一个响应,&与分类预测类,& 成功出试验的内个这种预测器的类别,对于所述WOE个类别被定义为k y j n j j jÿķÿĴñĴĴĴ

日志ÿĴĴķÿĴĴķñĴ-ÿĴñĴ-ÿĴ

&转换包括使用其WOE对分类预测器的每个类别进行编码,以形成新的连续预测器。)

我想了解WOE转换有助于逻辑回归的原因。这背后的理论是什么?

Answers:


6

在链接到的示例中,类别预测变量由单个连续变量表示,该变量为每个级别取一个值,该值等于该级别所观察到的响应的对数赔率(加上一个常数):

日志ÿĴñĴ-ÿĴ+日志ĴķñĴ-ÿĴĴķÿĴ

这种混淆完全没有我能想到的任何目的:您将获得与使用常规伪编码相同的预测响应;但是自由度是错误的,使关于模型的几种有用的推断形式无效。

在多元回归中,要转换多个分类预测变量,我想您将使用边际对数比值来计算每个的WOE。这将改变预测的响应;但是由于没有考虑混淆因素-条件对数几率不是边际对数几率的线性函数-我看不出有任何理由认为它会有所改善,并且推论问题仍然存在。


您能解释一下自由度为何与WOE错误吗?这只是一种转换对吗?另外,如果我们有几个分类变量,并且每个变量都有一个WOE,该怎么办?以我的经验,当您有许多类别变量时,不同变量之间的某些存储桶会重叠很多,并且您会开始看到一些无关紧要的系数。而且,您还需要携带几个系数。
亚当2015年

1
(1)转换取决于评估预测变量与响应之间的关系-应该留给回归分析。因此,例如,似然比检验统计量将不会具有与预先指定转换时相同的分布。(2)好点!-对WOE的多元回归将不等于对虚拟变量的多元回归(除非模型已饱和)。(3)那又如何呢?(4)系数并不比WOE重。
Scortchi-恢复莫妮卡

我猜WoE是计算问题比今天更多的时代的遗留物。因此,也许对于具有多个级别的分类预测变量,将其转换为数值变量是一个好主意!
kjetil b halvorsen

1

使用证据权重(WoE)进行粗分类具有以下优点-WoE与优势比的自然对数显示线性关系,优势比是对数回归中的因变量。
因此,当我们使用WoE代替变量的实际值时,逻辑回归中不会出现模型错误指定的问题。

α β w ^ ö é V - [R 1 γ w ^ Ô é V - [R 2 η w ^ Ô é V - [R 3 ñp/1个-p = + * + * + *αβw ^ØËV一个[R1个γw ^ØËV一个[R2ηw ^ØËV一个[R3

资料来源:在其中一个PPT中,我的教练在公司培训期间向我展示了我。


2
“当我们使用WoE而不是变量的实际值时,在逻辑回归中不会发生模型错误指定”。你能用数学解释/证明吗?
亚当,2015年

我不是从风险分析的背景,但皮克这本书的131,132好像这么说books.google.co.in/...
SRIKANTH古汉

同时此链接声称虽然没有数学相同,说明analyticbridge.com/forum/topics/...
SRIKANTH古汉

1
感谢提供的链接,但与WoE成正比的边际对数赔率与逻辑回归本身所涉及的条件对数赔率具有线性关系,这显然是不正确的。与其他预测变量混淆甚至可以导致WoE排序类别不同。
Scortchi-恢复莫妮卡

1

当您同时需要数字和分类数据时,WOE转换会有所帮助,而在整个过程中您都希望从中提取信息,因此缺少这些值。将所有内容转换为WOE有助于将许多不同类型的数据(甚至丢失的数据)“标准化”到相同的对数赔率范围内。这篇博客文章相当合理地解释了事情:http : //multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/

故事的简短之处在于,使用WOE进行Logistic回归应该(并且被)称为半朴素贝叶斯分类器(SNBC)。如果您想了解该算法,对我而言,SNBC这个名称将提供更多信息。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.