假设我有一个基于随机森林的预测分类模型(使用R中的randomForest包)。我想对其进行设置,以便最终用户可以指定要为其生成预测的项目,并且它将输出分类可能性。到目前为止,没有问题。
但是能够输出诸如可变重要性图之类的东西,但对于要预测的特定项目而不是训练集,将是有用/很酷的。就像是:
预计X项是狗(可能性为73%),
因为:
腿= 4
呼吸=不良
毛皮=短
食=讨厌
你明白了。是否存在从受过训练的随机森林中提取此信息的标准或至少合理的方法?如果是这样,是否有人有代码可以对randomForest软件包执行此操作?
有些复杂性...您可以想象计算出Legs变量是决策路径一部分的次数。但是,您只是对预测多数答案的树木还是所有树木都这样做吗?还是不同?
—
哈兰
m
逐一更改所有预测变量,然后看看森林如何进行不同的预测似乎有些昂贵。有更好的方法。
我的第一个想法是想知道您要做什么与培训数据的可变重要性有何不同?您是否要说在给定其他值的情况下,对腿= 4相对于腿= 2或腿= 0的预测的敏感性是多少?您是否看过randomforest软件包中的部分绘图功能?
—
B_Miner 2011年
可变重要性通常是根据整个训练集(或假设的总体或其他)来定义的。但是我想要的是单个预测项目的可变重要性。假设有一个森林由非常偏斜的决策树组成。测试实例1可以用1个或很少的决策节点来解释,而测试实例2可以用更大的决策节点集来解释。我想要一个非常容易理解的版本,例如一系列排名最高的决策,我可以提供前五个决策。对于单个决策树,我只是将其阅读。
—
哈兰