决策树与神经网络


20

我正在实现一种机器学习结构,以尝试预测诸如银行等金融系统上的欺诈行为。这意味着可以使用许多不同的数据来训练模型。卡号,持卡人姓名,金额,国家等...

我在确定哪种结构最适合此问题时遇到了麻烦。我对决策树有一些经验,但是目前我开始质疑神经网络是否可以更好地解决此类问题。另外,如果有其他任何最佳方法,请随时启发我。

每个结构的优缺点是什么,哪种结构最适合该问题?

我也不确定这个事实,但是我认为决策树在执行速度方面比神经网络有很大的优势。这很重要,因为速度也是该项目的关键因素。

Answers:


24

两者之间有许多差异,但实际上,要考虑三个主要方面:速度,可解释性和准确性。

决策树

  • 训练后应该更快(尽管两种算法都可以根据精确算法和数据量/维数缓慢训练)。这是因为决策树会固有地“丢弃”它认为不有用的输入特征,而神经网络将全部使用它们,除非您进行某些特征选择作为预处理步骤。
  • 如果重要的是要了解模型在做什么,这些树就很容易解释。
  • 仅模型函数是数据的轴平行拆分,而事实并非如此。
  • 您可能要确保修剪树,以免过度拟合。

神经网络

  • 速度较慢(用于训练和分类),并且难以解释。
  • 如果数据以流的形式到达,则可以使用随机梯度下降来进行增量更新(与决策树不同,决策树固有地使用批处理学习算法)。
  • 可以建模更多任意函数(非线性相互作用等),因此,如果有足够的训练数据,则可能会更加准确。但它也可能容易过拟合。

您可能要尝试同时实现这两种方法,并对数据进行一些实验,以查看哪种方法更好,并确定运行时间基准。或者,您可以使用类似Weka GUI(带有代表性数据样本)的东西来测试两种方法。

也可能是,将“装袋”或“增强”算法与决策树一起使用将提高准确性,同时保持一些简单性和速度。简而言之,如果速度和可解释性确实很重要,那么树木可能是起点。否则,取决于情况,您将需要进行一些经验探索。


您似乎对此有所了解,您是否对贝叶斯网络或其他可能有助于解决此问题的机器学习方法有任何经验?
Topo'7

1
我对完整的贝叶斯网络(主要是朴素的贝叶斯和主题模型)不怎么感兴趣。我从未从事过欺诈检测问题,但是朴素的贝叶斯逻辑回归在这里也可能是合理的方法。
毛刺2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.