构建一个多类分类器是否优于几个二进制分类器?


18

我需要将URL分类。假设我有15个类别,我打算将每个URL归零。

15向分类器更好吗?我有15个标签,并为每个数据点生成特征。

还是建立15个二元分类器,例如:电影或非电影,并使用从这些分类中获得的数字来构建等级,以选择最佳类别,从而变得更好?

Answers:


12

首先,您必须问自己问题是否是多标签的(即,单个URL可以属于多个类别)(即,单个URL仅可以属于一个类别)。

如果是前者,则应使用一系列二进制分类器,因为这是处理多标签问题的默认方法。

如果是后者,答案取决于您的数据外观,分析的目的和使用的方法的组合,也许您应该同时尝试并选择最佳方法。
仅需注意,由于某些方法(如SVM)的定义方式,它们实际上无法进行多类分类,因此在内部使用了一系列二进制分类器。


我的问题陈述正在考虑以前的假设@mbq。我知道有多标签。是的,就像您说过的那样,我决定选择15个二进制分类器,但我再次需要对它们进行排名,以选择一个最佳分类。因此,我将尝试使用从二进制分类器中获得的数字来执行另一个顶级分类。你有什么问题吗?
madCode 2012年

SVM可以执行多类分类。该方法与softmax回归非常相似(请参阅“关于基于内核的多类向量机的算法实现”)。
user1149913 2012年

4

这将取决于您的数据如何分散。最近有一个很好的例子,一个类似的问题,OP想知道单个线性判别函数是确定总体A与B或C还是基于将A分开的多线性判别函数的更好的分类器。 B和C。有人给出了一个非常漂亮的彩色散点图,显示了在这种情况下使用两种判别方法会比一种更好。我将尝试链接到它。


不挂断。我找不到它,但我会继续寻找。
Michael R. Chernick 2012年

抱歉,无法找到链接。想象一下,左边有一种颜色的云,中间有另一种颜色的云,右边有三分之一的云。两条线性判别线可以很好地将中间组与左右组分开,但是没有一条线可以很好地完成。图片将比所有这些话更有价值。
Michael R. Chernick 2012年

1
@MichaelChernick这是您要找的链接吗?

我想我理解您在说什么:bit.ly/M1NydS-您定义的图片是我在此演示文稿中遇到的。4路或3路分类..可以是直接的。但是,我想知道如果进行15路分类,是否会损害精度/召回率,Chernick博士。
madCode 2012年

@Procrastinator谢谢您的发现。我在查找它时遇到了很多麻烦,我花了很多时间寻找!这是最近的帖子,所以我虽然很容易找到山雀。
Michael R. Chernick 2012年

1

例如,某些方法可以很好地处理多类随机森林MLP。

如果您不想那样做,那么ECOC可能会很好地针对您的问题执行1-vs-All,只有测试才能证明。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.