具有一个主要预测因子的分类


9

我有一个(级)分类问题,具有100个实值预测变量的数量级,其中一个似乎比其他任何一个都具有更多的解释能力。我想更深入地了解其他变量的影响。但是,标准的机器学习技术(随机森林,SVM等)似乎被一个强大的预测因素所淹没,并且没有给我提供很多有关其他方面的有趣信息。ķ

如果这是一个回归问题,我将仅针对强预测变量进行回归,然后将残差用作其他算法的输入。我真的看不到如何将这种方法转换为分类上下文。

我的直觉是,这个问题必须相当普遍:是否有标准的处理方法?

Answers:


2

对于2类问题,可以在R中使用GBM包,该包将使分类树迭代地拟合损失函数的残差。不幸的是,它还不支持多类问题。

这似乎是一个非常适合增强的问题,但是我不知道任何支持k类问题的增强软件包。我认为问题在于为多个类编写了适当的损失函数。这些glmnet软件包具有多项式损失函数,也许您可​​以查看一下其指针的源代码。

您可以尝试编写自己的增强算法,也可以将问题转化为k个二进制分类问题(一个类与所有其他类),为每个问题拟合一个gbm模型,并平均每个模型的类概率。


2
Zach不确定开发稳定性如何,但是R Forge上的GBM具有多项逻辑作为损失函数,可以进行多类别分类。
B_Miner 2012年

谢谢!我同意提高效率可能是解决此问题的好方法,并且我将研究您提出的建议。我仍然很想知道是否有解决此问题的好方法。
Martin O'Leary 2012年

@Zach请让我知道它是如何工作的。
B_Miner 2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.