支持向量机对属性之间的相关性敏感吗?


11

我想训练一个SVM根据20个属性对案例进行分类(TRUE / FALSE)。我知道其中一些属性是高度相关的。因此,我的问题是:SVM对功能之间的关联或冗余敏感吗?有参考吗?


我的猜测是不会的,因为基于一个变量生成分隔符会使其他相关变量在进一步的分隔符方面变弱。但是,关于选择哪个变量可能有些不稳定。
mandata

您是在谈论线性SVM还是RBF内核,还是...?
2015年

嗯,我不知道...答案是否取决于那?
user7064'5

是的,一点没错。如果愿意,您可以设计一个内核来显式处理相关性。
2015年

1
@Dougal:如果有消除关联影响的方法,这是否意味着标准SVM对关联敏感?
CFH 2015年

Answers:


12

线性核:此处的效果类似于线性回归中的多重共线性。对于不同的权重向量,它们的输出可能会相似,因此您学习的模型对于训练集的微小变化可能不是特别稳定。但是,训练集预测将相当稳定,如果预测来自相同的分布,则将对其进行测试。

RBF内核: RBF内核仅查看数据点之间的距离。因此,假设您实际上有11个属性,但是其中一个属性重复了10次(非常极端的情况)。然后,重复的属性对距离的贡献将是其他任何属性的10倍,并且学习到的模型可能会受到该特征的影响更大。

使用RBF核对相关性进行折现的一种简单方法是使用马氏距离:,其中S是样本协方差矩阵的估计。同样地,映射所有矢量XÇX,然后使用常规的RBF核,其中Ç使得小号 - 1 =c ^ŤÇ,例如的Cholesky分解小号 - 1dXÿ=X-ÿŤ小号-1个X-ÿ小号XCXC小号-1个=CŤC小号-1个


这是一个非常有趣的答案。我想阅读更多有关如何减轻这类问题的信息。您可以添加一两个参考吗?
Sycorax说恢复莫妮卡

我不知道一个好的副手,但我会四处逛一逛,也许是今晚。
2015年

太棒了!如果您碰巧发现了一篇很棒的文章,请收件箱。我很高兴(+1)能让您超过3k。(-:
Sycorax说恢复莫妮卡

1
Mahalanobis距离中协方差矩阵的逆是关键。如果您可以可靠地估计它,则可以说明这一影响。
Vladislavs Dovgalecs 2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.