随机森林(RF)是一种竞争性的数据建模/挖掘方法。
RF模型具有一个输出-输出/预测变量。
用RF建模多个输出的简单方法是为每个输出变量构造一个RF。因此,我们有N个独立的模型,并且在输出变量之间存在相关性的地方,我们将具有冗余/重复的模型结构。确实,这可能非常浪费。通常,更多的模型变量意味着更多的拟合模型(较少的泛化)。不知道这是否适用于此,但可能适用。
原则上我们可以有一个带有多个输出的RF。预测变量现在是一个向量(n元组)。现在,每个决策树中的决策节点都基于阈值向量拆分目标/预测向量集,我认为该阈值被视为n维空间中的一个平面,因此我们可以确定阈值的哪一侧向量每个目标向量都打开。
决策拆分每一侧的最佳预测值是为每一侧的向量计算的平均值(质心)。
在处理单个变量时找到最佳分割点很简单,而且计算速度快/效率高。对于n元组,我们无法找到最佳拆分(或者至少随着N的增加,它在计算上变得不可行),但是我们可以使用Monte Carlo类型方法(或Monte Carlo和Local的某种混合)找到接近最佳拆分梯度遍历)。
这真的行得通吗?也就是说,它是否可以仅映射训练对而不进行概括?此技术是否已经以其他名称存在?
您可能还需要考虑这与诸如限制玻尔兹曼机器(RBM)和深度信念网络之类的神经网络之间的关系。