如何处理一个分类问题,其中一个类别由“其他类别中的任何一个都不定义”


9

假设我对三个类,和。但是我的数据集实际上包含了更多的真实类。c 2 c 3c j n j = 4C1个C2C3CĴĴ=4ñ

显而易见的答案是定义一个新类,它引用所有类,但是我怀疑这不是一个好主意,因为的样本将很少并且彼此之间不太相似。çĴĴ>3 Ç 4C^4CĴĴ>3C^4

为了可视化我要说的内容,假设我有以下两个变量空间,并且类,,,分别用红色,直到,绿色和黑色分别。这就是我怀疑我的数据的样子。c ^ 2 ç 3 Ç 4 = Ñ Ĵ = 4 Ç ĴC1个C2C3C^4=Ĵ=4ñCĴ

在此处输入图片说明

有没有解决此问题的标准方法?什么是最有效的分类器,为什么?



1
您可能需要探索未标记正的模型。它看起来像一个类似的问题,只是它是多类的,而不是像大多数PU问题一样是二进制的。
里卡多·克鲁兹

Answers:


4

我将使用两步方法,使用您提到的类的想法。C4^

第一步,使用二元分类器(对整个数据集进行训练)来确定样本是否属于(即,在任何不感兴趣的类中)。为此,如果属于“有趣”类的样本与其余样本有很大不同,则您还可以查看异常值检测方法。C4^

如果结果是否定的,则继续执行下一步,即仅对属于类样本进行训练的新分类器并将该预测用作最终预测。C1个C2C3

我认为即使第一步使用简单的聚类方法(例如,使用初始聚类值对4个k均值进行聚类,平均质心 对于每个,仍然有用。CËñŤĴ=X一世dÿ一世=ĴX一世X一世dÿ一世=Ĵ1个C1个C2C3C4^


如果您没有太多的课堂重叠,那么Bogas的建议是很棒的。否则,请使用多标签模型。
里卡多·克鲁兹

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.