决策树还是逻辑回归?


14

我正在处理分类问题。我有一个包含相等数量的分类变量和连续变量的数据集。我怎么知道要使用哪种技术?在决策树和逻辑回归之间?

假设逻辑回归将更适合于连续变量,决策树将更适合于连续+分类变量,对吗?


您是否可以添加更多详细信息,例如行数,列数(以及分类/连续数)?
Nitesh 2015年

@Nitesh,您好,我有32个输入变量+ 1个目标变量。培训数据记录接近25万,测试数据约为10万。测试数据不是时间数据。
阿伦(Arun)2015年

Answers:


22

长话短说做@untitledprogrammer所说的,尝试两种模型并进行交叉验证以帮助选择一种。

决策树(取决于实现,例如C4.5)和逻辑回归都应该能够很好地处理连续和分类数据。对于逻辑回归,您需要对分类变量进行虚拟编码

正如@untitledprogrammer所提到的,仅基于您具有的功能类型(连续或其他),很难先验地知道哪种技术会更好。这实际上取决于您的特定问题和所拥有的数据。(请参阅无免费午餐定理

尽管逻辑回归模型正在特征空间中搜索单个线性决策边界,但您仍要记住,而决策树本质上是使用轴对齐的线性决策边界将特征空间划分为半空间。最终结果是您拥有一个非线性决策边界,可能不止一个。

当您的数据点不易被单个超平面分隔开时,这很好,但是另一方面,决策树是如此灵活,以至于它们很容易过度拟合。为了解决这个问题,您可以尝试修剪。逻辑回归往往不太适合过度拟合(但不能免疫!)。

XÿXÿ

因此,您必须问自己:

  • 在您的特定问题中哪种决策边界更有意义?
  • 您如何平衡偏见和差异?
  • 我的功能之间有互动吗?

当然,尝试两个模型并进行交叉验证总是一个好主意。这将帮助您找出哪一个更可能具有更好的泛化错误。


就是@Victor。
无题

@Victor非常感谢您的详细解释。
阿伦(Arun)2015年

6

尝试同时使用回归树和决策树。通过使用10倍交叉验证比较每种技术的效率。坚持以更高的效率。仅知道您的数据集是连续的或分类的,就很难判断哪种方法更合适。


1

这实际上取决于数据的基础分布的结构。如果您有充分的理由相信数据近似于伯努利分布,则多项式逻辑回归将表现良好,并为您提供可解释的结果。但是,如果基础分布中存在非线性结构,则应认真考虑使用非参数方法。

虽然您可以将决策树用作非参数方法,但您也可以考虑研究生成随机森林-这实际上是从数据子集中生成大量单独的决策树,而最终分类是所有树的聚集投票。随机森林有助于您了解每个预测变量对响应贡献的份额。

要记住的另一个因素是可解释性。如果您只是尝试对数据进行分类,那么您可能根本不在乎解释变量和响应变量之间的潜在关系。但是,如果您对可解释性完全感兴趣,那么一般而言,参数化方法更易于解释多项式逻辑回归,因为它们对基本分布进行了假设,从而使您可以更直观地理解关系。


0

要使用决策树,您应该将连续变量转换为分类变量。

还有一件事,逻辑回归通常根据概率来预测结果。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.