如何将逻辑回归和随机森林的结果结合起来?


12

我是机器学习的新手。我在同一数据集上应用了逻辑回归和随机森林。因此,我得到了可变的重要性(逻辑回归的绝对系数和随机森林的可变重要性)。我正在考虑将两者结合起来以获得最终可变的重要性。谁能分享他/她的经验?我已经检查了装袋,提升,合奏建模,但是这些不是我所需要的。他们更多地是在跨重复项合并同一模型的信息。我正在寻找的是结合多个模型的结果。


5
集成建模也可以合并模型。以多数投票为例。另请参阅堆叠。
2013年

4
实际上,使用系数的大小并不是确定逻辑回归中“变量重要性”的好方法。即使您查看标准化系数,也不是一个好方法。为什么?请记住,系数只是估计值,因此存在误差。按大小选择系数意味着您选择那些高估了系数大小的系数,而删除了那些低估了系数大小的系数。
user765195 2013年

Answers:


12

这可能取决于您要使用可变重要性的功能。是否可以将其用作第三分类模型的特征选择标准?在这种情况下,您可以尝试计算各种值的加权重要性(可能是将每个变量重要性向量归一化为单位长度后)的加权平均值和平均权重,然后选择可得出最终交叉验证最佳分数的值模型。

至于将逻辑回归模型和随机森林模型的结果结合起来(不考虑变量的重要性),以下博客文章提供了很多信息,并证明了对回归模型进行平均输出是一种简单但非常有效的集成方法。


1
谢谢您的回复。您提到的博客是一个非常有趣的研究。我想我明白了。唯一关心的是他的交叉熵公式。我在网上找到的似乎与之不同。他的用法:交叉熵<-函数(目标,预测的){预测= pmax(1e-10,pmin(1-1e-10,预测的))-总和(目标* log(预测)+(1-目标)*日志(1-预测))}
user1946504 2013年

2
当我将相同的想法应用于自己的数据集时,我使用了误分类错误作为标准,该图完全不同。结果证明,随机森林比逻辑回归要好得多。RF的误分类误差为0.2,而LR为0.4。同时,RF的AUC为0.8,LR的为0.73。
user1946504

5

(评论以上回应和反馈)

感谢您阅读博客!

交叉熵误差函数有一些弊端,将预测值截断为[1e-10,1-1e-10]是防止对数函数出现误差的廉价且简便的方法。否则,这是标准公式。

对于数据集,很有可能拥有随机森林远胜于日志的数据集。reg。和日志。reg。没有增加任何合奏。当然,请确保您使用的是保留数据-由于具有更有效的参数,随机森林几乎总是在训练数据上具有优异的结果。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.