Logistic回归何时合适?


12

我目前正在自学如何进行分类,特别是正在研究三种方法:支持向量机,神经网络和逻辑回归。我想了解的是为什么逻辑回归会比其他两个更好。

根据我对逻辑回归的理解,这个想法是使逻辑函数适合整个数据。因此,如果我的数据是二进制的,则我所有带有标签0的数据都应映射到值0(或接近它),而我所有带有值1的数据都应映射到值1(或接近它)。现在,由于逻辑函数是连续且平滑的,因此执行此回归需要我所有的数据拟合曲线。决策边界附近的数据点没有受到更大的重视,所有数据点对损失的贡献程度不同。

但是,对于支持向量机和神经网络,只有决策边界附近的那些数据点才重要。只要数据点保留在决策边界的同一侧,它将造成相同的损失。

因此,为什么逻辑回归会比支持向量机或神经网络更胜一筹,原因是逻辑回归会“浪费资源”来使曲线拟合许多不重要的(易于分类的)数据,而不是只关注决策周围的困难数据边界?


5
LR将为您提供概率估计,而SVM将为您提供二进制估计。当类之间没有分隔的超平面时,这也使LR有用。另外,您还必须考虑算法的复杂性和其他特征,例如参数数量和灵敏度。
酒吧

Answers:


28

(Y=1|X) 有力的论据支持概率推理。

Y

Y

一些分析家认为,逻辑回归假设对数几率尺度上预测变量的线性关系。只有在1958年DR Cox发明了逻辑模型时,当时才无法使用回归样条之类的工具进行计算来扩展模型,这才是正确的。逻辑回归的唯一真正缺点是,您需要指定要允许在模型中进行哪些交互。对于大多数数据集来说,这是有优势的,因为相加的主要影响通常比交互作用更强,而交互作用具有同等优先权的机器学习方法可能不稳定,难以解释,并且需要比逻辑回归预测更大的样本量好。


6
+1。老实说,我从未发现SVM很有用。他们很性感,但根据我的经验,他们训练和得分都很慢,并且需要进行很多选择(包括内核)。我发现神经网络很有用,但也有很多选择和调整。Logistic回归非常简单,并且开箱即用地提供了经过良好校准的结果。校准对于实际使用很重要。当然,缺点是它是线性的,因此不适合簇状,块状数据以及其他方法,例如随机森林。
韦恩

1
好答案。顺便说一句,您可能想知道最近机器学习者已经开始将他们的幻想方法适合于传统框架,例如受罚的最大似然率-并且事实证明,幻想方法完成后效果更好。考虑XGBoost,可以说是目前最有效的树集成提升算法。数学在这里:xgboost.readthedocs.io/en/latest/model.html。对于传统的统计学家来说,它看起来应该很熟悉,并且您可以使用通常的损失函数将模型用于许多常见的统计目的。
Paul

5

您是对的,通常逻辑回归作为分类器的效果不佳(尤其是与其他算法比较时)。但是,这并不意味着应该将Logistic回归遗忘并且从不进行研究,因为它具有两个主要优点:

  1. 概率结果。弗兰克·哈雷尔(Frank Harrell)(+1)在回答中对此做了很好的解释。

  2. Y=1X1=12X2,...Xp


5
显然,作为分类器的性能不佳是由于使用了不正确的准确性评分,而不是逻辑回归所固有的问题。
弗兰克·哈雷尔

@FrankHarrell:我最近一直在做一些实验,我想说Logistic回归比其他方法更适合自由地拟合数据。您需要添加交互并进行更多的功能设计,以匹配例如Random Forest或GAM的灵活性。(当然,灵活性是跨越过度拟合深渊的绳索。)
韦恩(Wayne

3
正如您所说,@ wayne这种自由度较低,在许多情况下非常有用,因为它提供了稳定性
rapaio

3
假设交互作用术语不如加性术语重要,这增加了灵活性,而且您可以通过多种方式放宽假设。我在原始答案中添加了更多有关此内容的信息。
弗兰克·哈雷尔

2
@rapaio:是的,灵活性过大都是危险的,无论是过拟合还是其他方式。这是一个域/使用问题:您的数据是否嘈杂,或者如果我可以使用该术语,它是否真的是“块状/集群式”?
韦恩
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.