不确定类别标签的分类器


11

假设我有一组与类标签相关联的实例。不要紧,怎么这些情况下进行标记,但如何某些他们班的成员是。每个实例恰好属于一个类。假设我可以使用从1到3的名义属性(分别非常确定和不确定)来量化每个类成员的确定性。

是否有某种分类器考虑了这样的确定性度量,如果是,则在WEKA工具箱中可用吗?

我想这种情况经常发生,例如,当实例不是由人完全确定时,就由人对它们进行分类。就我而言,我必须对图像进行分类,有时图像可能属于多个类别。如果发生这种情况,我会给班级带来很大的不确定性,但仍然只对一个班级进行分类。

或者,没有专门的分类器,还有其他方法可以解决此问题吗?例如,仅采用“某些”分类进行培训?我担心在这种情况下,会出现更多的错误分类,因为没有涵盖“边界”案件。


1
每个条目都完全属于一个类吗?或者某些条目可能属于肯定性1的类别12和肯定性2的类别34?
user31264

在这种情况下,每个条目仅属于一个类。
wnstnsmth

Answers:


8

首先,正如@Marc Claesen所解释的那样,半监督分类是一种用来处理这种情况的技术,其中您知道类确实是不同的,但是您不确定该案例实际属于哪个类。

但是,在某些情况下,“真实性”还不是很清楚,并且无法满足具有真正不同类别的假设:bordeline案例可能是“物理”现实(有关应用程序的论文,请参见下文)我们满足了这样的条件)。

您需要确保满足半监督分类器的一个关键假设在特征空间中,分类边界伴随着低样本密度。这称为聚类假设。
即使您的数据所基于的现实具有不同的类别,您的数据集也可能具有不成比例的边界案例:例如,如果您的分类技术旨在对困难的案例进行分类,而清晰和简单的案例就没有意义,并且您的训练数据已经反映了这一点情况。

仅采用“某些”分类进行培训?我担心在这种情况下,会出现更多的错误分类,因为没有涵盖“边界”案件。

我完全同意您的看法,排除临界情况通常是一个坏主意:通过消除所有困难的情况,您最终会遇到人为的简单问题。恕我直言,更糟糕的是,排除边界案例通常不会因模型训练而停止,但是边界案例也无法进行测试,因此仅对简单案例进行模型测试。这样一来,您甚至都不会意识到该模型在边界情况下的效果不佳。

这是我们写的关于该问题的两篇论文,与您的问题不同,在我们的应用程序中,现实也可以有“混合”类(您问题的更一般版本:还包括参考标签的不确定性)。

链接转到我为进行性能计算而开发的R包的项目页面。官方网页和我的论文手稿都有更多链接。尽管到目前为止我还没有使用过Weka,但我知道可以使用R的接口


实际考虑:

  • 尽管“复制和标签不同”方法很简单,但实际上并非适用于所有分类器和实现。例如,AFAIK无法libSVM通过交叉验证告诉调优,每个数据点的所有副本都必须保留在相同的交叉验证折叠中。因此,libSVM调整可能会产生大规模的过拟合模型。
  • 同样对于逻辑回归,我发现许多实现不允许我需要的部分成员资格标签。
  • 我在上面的论文中使用的实现实际上是一个使用Logistic作为S形链接函数(nnet::multinom)的无隐藏层的ANN 。

您的第一个实际考虑虽然正确,但并不libsvm特别适用。的libsvm作者提供每一个版本,在这种情况加权分类是可能的替代版本,共避免这种问题。正是这些原因促使我普遍直接使用算法库,而不是像Weka / scipy / ...这样的包装器。csie.ntu.edu.tw/~ cjlin
Marc Claesen

@MarcClaesen:谢谢-我没看过。但是,您是否不需要提供相同案例的两个实例,其中一个加权的实例为1/3级A,另一个为2/3的B级?无论如何,不​​需要提供大量清晰案例的副本将使调优问题减少(对于我的数据,无论如何我都必须在外部进行调优拆分,因为我具有“分层”数据结构,可以对实际案例进行多次测量)
cbeleites对SX不满意,2013年

@cbeiteles,当一个实例可能属于多个类时,即使使用该实例权重,您确实确实需要多次提供它。我没有考虑过这种可能性。
马克·克莱森

6

这是在半监督学习中解决的分类泛化之一。如果可以确定性,则可以使用允许对训练实例进行加权的方法。确定性越高,相应的实例权重就越大。此类方法的示例包括实例加权SVM和逻辑回归。

我确信weka可以实现这些算法。如果所有其他方法均失败,请从实例中高度确定地采样多个实例。您可以将这种方法用于传统的SVM或LR。

示例:SVM

如果我没记错的话,weka可以连接LIBSVM。LIBSVM允许您在所有版本中解决类加权SVM,并在每个版本的特殊版本中解决实例加权SVM。我将假设weka不支持后者(这是您所需要的)。

瓦特 ξ P Ñ Ç p ö 小号 Ç Ñ Ë

minw,ξw2+CposiPξi+CnegiNξi,
wξPNCposCneg

根据您的问题,您似乎理想地希望使用6种不同的权重(2个类 3个确定性级别)。您可以通过高度确定性地复制这些点的样本来实现许多方法。×

例如,就SVM而言,两次使用相同的数据实例将产生相同的解决方案,以使其关联的值加倍。这是为某些数据实例分配高误分类惩罚的一种非常简单的方法。您可以采用相同的方法进行逻辑回归。C


(+1)就这样!通过复制具有不同标签和实例权重(又称标签确定性)的实例,人们还可以应用诸如随机森林,朴素贝叶斯等算法。实例权重如此普遍,weka必须有支持它的学习者。Rapidminer(weka的竞争对手)做到了。通过将确定性设置为1,甚至可以为“脆性”多标签问题建模。
steffen

没错,WEKA支持LIBSVM,但不支持实例加权afaik。我认为,复制实例的想法是一个很好的想法,尤其是因为每个“传统”学习者都可以应对。
wnstnsmth

2

问题的难度高度取决于不确定标签的错误程度。如果不确定的标签正确(例如,在90%的时间内),则仅使用logistic回归就可以摆脱困境。另一方面,如果标签错误的时间接近一半,则可能需要诉诸某些特殊技术。是我遇到的一个非常类似的问题。(每个标签我们有多个观测值,但其他设置非常相似。)


-5

我简要介绍了图像识别和分类。

随机森林是一种易于使用的技术。我已经在R上实现了它,它也应该在Weka上可用。易用性比预测准确性高。如果您有足够大的训练集,它可以对多个标签进行分类。

它可以很好地识别手写数字,但是如果您的图像更复杂,那么只有一次试用才能告诉您它是否做得很好。


4
这与不确定的类别标签有什么关系?
wnstnsmth
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.