我正在寻找一种分类器,该分类器将通过大约10,000个对象的相当大的训练集来区分Type A
和Type B
对象,其中大约一半是Type A
,一半是Type B
。数据集由100个连续要素组成,详细描述了单元的物理属性(大小,平均半径等)。以成对的散点图和密度图可视化数据可知,在许多特征中,癌细胞和正常细胞的分布存在明显的重叠。
我目前正在探索随机森林作为此数据集的分类方法,并且已经看到了一些不错的结果。使用R,随机森林能够正确分类约90%的对象。
我们想要尝试做的一件事是创建一种“确定性分数”,该分数将量化我们对物体分类的信心。我们知道,我们的分类将永远是100%准确,即使在预测精度高的实现,我们将要培训的技术人员,以确定哪些对象是真正的Type A
和Type B
。因此,而不是提供的不妥协的预言Type A
或者Type B
,我们只是给出一个分数为每个对象,将描述如何A
或B
对象是。例如,如果我们设计一个分数,范围从0到10,则分数0可能表示一个对象与该对象非常相似Type A
,而分数10则表明该对象非常类似于Type B
。
我当时想我可以使用随机森林中的选票来设计这样的分数。由于随机森林的分类是通过在生成的树木的森林中进行多数表决来完成的,因此我假设由100%的树木Type A
投票的对象将与由51%的树木投票的对象不同。是Type A
。
目前,我尝试为对象必须分类为Type A
或的投票比例设置一个任意阈值Type B
,如果未通过该阈值,它将被分类为Uncertain
。例如,如果我强制要求80%或更多的树必须同意通过分类的决定,那么我发现99%的类预测是正确的,但是大约40%的对象被归为Uncertain
。
那么,利用投票信息对预测的确定性进行评分是否有意义?还是我的想法朝错误的方向前进?