我正在处理分类问题。我有一个包含相等数量的分类变量和连续变量的数据集。我怎么知道要使用哪种技术?在决策树和逻辑回归之间?
假设逻辑回归将更适合于连续变量,决策树将更适合于连续+分类变量,对吗?
我正在处理分类问题。我有一个包含相等数量的分类变量和连续变量的数据集。我怎么知道要使用哪种技术?在决策树和逻辑回归之间?
假设逻辑回归将更适合于连续变量,决策树将更适合于连续+分类变量,对吗?
Answers:
长话短说:做@untitledprogrammer所说的,尝试两种模型并进行交叉验证以帮助选择一种。
决策树(取决于实现,例如C4.5)和逻辑回归都应该能够很好地处理连续和分类数据。对于逻辑回归,您需要对分类变量进行虚拟编码。
正如@untitledprogrammer所提到的,仅基于您具有的功能类型(连续或其他),很难先验地知道哪种技术会更好。这实际上取决于您的特定问题和所拥有的数据。(请参阅无免费午餐定理)
尽管逻辑回归模型正在特征空间中搜索单个线性决策边界,但您仍要记住,而决策树本质上是使用轴对齐的线性决策边界将特征空间划分为半空间。最终结果是您拥有一个非线性决策边界,可能不止一个。
当您的数据点不易被单个超平面分隔开时,这很好,但是另一方面,决策树是如此灵活,以至于它们很容易过度拟合。为了解决这个问题,您可以尝试修剪。逻辑回归往往不太适合过度拟合(但不能免疫!)。
因此,您必须问自己:
当然,尝试两个模型并进行交叉验证总是一个好主意。这将帮助您找出哪一个更可能具有更好的泛化错误。
这实际上取决于数据的基础分布的结构。如果您有充分的理由相信数据近似于伯努利分布,则多项式逻辑回归将表现良好,并为您提供可解释的结果。但是,如果基础分布中存在非线性结构,则应认真考虑使用非参数方法。
虽然您可以将决策树用作非参数方法,但您也可以考虑研究生成随机森林-这实际上是从数据子集中生成大量单独的决策树,而最终分类是所有树的聚集投票。随机森林有助于您了解每个预测变量对响应贡献的份额。
要记住的另一个因素是可解释性。如果您只是尝试对数据进行分类,那么您可能根本不在乎解释变量和响应变量之间的潜在关系。但是,如果您对可解释性完全感兴趣,那么一般而言,参数化方法更易于解释多项式逻辑回归,因为它们对基本分布进行了假设,从而使您可以更直观地理解关系。