Answers:
使用某些方法可以做到这一点,并且肯定是有效的方法。不过,我不确定随机森林是否可以做到这一点。
生成人工数据意味着要做出额外的假设,如果没有必要,则不要这样做。
您可能需要研究的一种技术是所谓的一类SVM。它完全满足您的需求:它试图建立一个模型,该模型接受训练点并拒绝其他分布的点。
关于一类SVM的一些参考:
Schölkopf,Bernhard等。“估计支持高维分布。” 神经计算13.7(2001):1443-1471。本文介绍了该方法。
税收,大卫·MJ和罗伯特·PW杜因。“支持向量数据描述。” 机器学习54.1(2004):45-66。做同一件事的不同方法,可能更直观。
这两种方法已被证明是等效的。第一个估计超平面,该超平面将所有训练数据与特征空间中的原点以最大距离分开。第二种方法估计包含训练实例的特征空间中半径最小的超球面。
一类SVM在许多SVM软件包中都可用,包括libsvm,scikit-learn(Python)和kernlab(R)。
让我添加更多可能性:
通常的想法是,设置到类别的距离的阈值使您能够决定样本是否属于该类别,并且不管是否存在其他类别。
理查德·布雷顿(Richard G. Brereton):模式识别的化学计量学(Wiley,2009)整章介绍了一类分类。