Answers:
在链接到的示例中,类别预测变量由单个连续变量表示,该变量为每个级别取一个值,该值等于该级别所观察到的响应的对数赔率(加上一个常数):
这种混淆完全没有我能想到的任何目的:您将获得与使用常规伪编码相同的预测响应;但是自由度是错误的,使关于模型的几种有用的推断形式无效。
在多元回归中,要转换多个分类预测变量,我想您将使用边际对数比值来计算每个的WOE。这将改变预测的响应;但是由于没有考虑混淆因素-条件对数几率不是边际对数几率的线性函数-我看不出有任何理由认为它会有所改善,并且推论问题仍然存在。
使用证据权重(WoE)进行粗分类具有以下优点-WoE与优势比的自然对数显示线性关系,优势比是对数回归中的因变量。
因此,当我们使用WoE代替变量的实际值时,逻辑回归中不会出现模型错误指定的问题。
α β w ^ ö é (V 一- [R 1 )γ w ^ Ô é (V 一- [R 2 )η w ^ Ô é (V 一- [R 3 ) = + * + * + *
资料来源:在其中一个PPT中,我的教练在公司培训期间向我展示了我。
当您同时需要数字和分类数据时,WOE转换会有所帮助,而在整个过程中您都希望从中提取信息,因此缺少这些值。将所有内容转换为WOE有助于将许多不同类型的数据(甚至丢失的数据)“标准化”到相同的对数赔率范围内。这篇博客文章相当合理地解释了事情:http : //multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/
故事的简短之处在于,使用WOE进行Logistic回归应该(并且被)称为半朴素贝叶斯分类器(SNBC)。如果您想了解该算法,对我而言,SNBC这个名称将提供更多信息。