仅一类的分类器


10

在简单的分类中,我们有两个类:class-0和class-1。在某些数据中,我只有Class-1的值,所以没有Class-0的值。现在,我正在考虑建立一个模型来对第1类的数据进行建模。因此,当有新数据出现时,该模型将应用于新数据,并找到一个概率,说明新数据与该模型相适应的可能性。然后,与阈值进行比较,我可以过滤不适当的数据。

我的问题是:

  • 这是解决此类问题的好方法吗?
  • 可以在这种情况下使用RandomForest分类器吗?我是否需要为第0类添加人工数据,希望分类器将其视为噪声?
  • 还有其他想法可以解决这个问题吗?

Answers:


9

使用某些方法可以做到这一点,并且肯定是有效的方法。不过,我不确定随机森林是否可以做到这一点。

生成人工数据意味着要做出额外的假设,如果没有必要,则不要这样做。

您可能需要研究的一种技术是所谓的一类SVM。它完全满足您的需求:它试图建立一个模型,该模型接受训练点并拒绝其他分布的点。

关于一类SVM的一些参考:

  1. Schölkopf,Bernhard等。“估计支持高维分布。” 神经计算13.7(2001):1443-1471。本文介绍了该方法。

  2. 税收,大卫·MJ和罗伯特·PW杜因。“支持向量数据描述。” 机器学习54.1(2004):45-66。做同一件事的不同方法,可能更直观。

这两种方法已被证明是等效的。第一个估计超平面,该超平面将所有训练数据与特征空间中的原点以最大距离分开。第二种方法估计包含训练实例的特征空间中半径最小的超球面。

一类SVM在许多SVM软件包中都可用,包括libsvmscikit-learn(Python)和kernlab(R)。


3
Tax的博士学位论文“一类分类-在没有反例的情况下进行概念学习”也可以找到:homepage.tudelft.nl/n9d04/thesis.pdf
员工对SX不满意,2013年

简短而准确!(+1)“这两种方法都被证明是等效的。” -您可以为此指定参考/引用吗?难道scholar.google.de/...
Boern

6

让我添加更多可能性:

通常的想法是,设置到类别的距离的阈值使您能够决定样本是否属于该类别,并且不管是否存在其他类别。

  • 马氏距离=> QDA
  • SIMCA(类比的软件独立建模)使用PCA分数空间中的距离。
    SIMCA在化学计量学文献中很常见(尽管很少真正以一类方法设置)。
  • (在@Marc Claesen的答案中已经处理了SVM)

理查德·布雷顿(Richard G. Brereton):模式识别的化学计量学(Wiley,2009)整章介绍了一类分类。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.