线性回归和逻辑回归之间有什么区别?


Answers:


270
  • 线性回归输出作为概率

    将线性回归输出用作概率很诱人,但这是一个错误,因为输出可以为负,大于1而概率则不能。由于回归实际上可能会产生小于0或什至大于1的概率,因此引入了逻辑回归。

    资料来源:http : //gerardnico.com/wiki/data_mining/simple_logistic_regression

    在此处输入图片说明

  • 结果

    在线性回归中,结果(因变量)是连续的。它可以具有无限数量的可能值中的任何一个。

    在逻辑回归中,结果(因变量)只有有限数量的可能值。

  • 因变量

    当响应变量本质上是分类时,使用逻辑回归。例如,是/否,是/否,红色/绿色/蓝色,第一/第二/第三/第四等。

    当您的响应变量是连续的时,将使用线性回归。例如,体重,身高,小时数等。

  • 方程

    线性回归给出的方程式形式为Y = mX + C,表示度数为1的方程式。

    但是,逻辑回归给出的方程式为Y = e X + e -X

  • 系数解释

    在线性回归中,自变量的系数解释非常简单(即,使所有其他变量保持不变,并且此变量增加单位,因变量预计将增加/减少xxx)。

    但是,在逻辑回归中,取决于所使用的族(二项式,泊松等)和链接(对数,对数,逆对数等),其解释是不同的。

  • 误差最小化技术

    线性回归使用普通的最小二乘法来最小化误差并获得最佳拟合,而逻辑回归使用最大似然法来求解。

    线性回归通常是通过最小化模型对数据的最小二乘误差来解决的,因此对大误差进行二次惩罚。

    逻辑回归正好相反。使用逻辑损失函数会导致将较大的误差惩罚为渐近常数。

    考虑对分类{0,1}的结果进行线性回归,以了解为什么这是一个问题。如果您的模型预测结果为38,那么当真值为1时,您什么也不会损失。线性回归会尝试将其减少38,而logistic不会(尽可能)2


Y = e ^ X / 1 + e ^ -X和Y = e ^ X + e ^ -X之间是否有区别?
MMS

3
e ^ X / 1吗?除以1的结果相同。所以没有区别。我确定您是要问其他问题。
太空漫游者

我知道这是一个旧线程,但是根据您的陈述,“当响应变量本质上是分类时,将使用Logistic回归。例如,是/否,是/否,红色/绿色/蓝色,第一/第二/第三/第四,等等“; 那么和分类之间有什么区别?
kingJulian

@kingJulian Logistic回归确实用于分类。检查这个了,你可能会发现,因为我有它有用
QuantumHoneybees

@kingJulian:逻辑回归是一种分类技术,分类代表几种试图预测很少结果的算法。
user3676305

204

在线性回归中,结果(因变量)是连续的。它可以具有无限数量的可能值中的任何一个。在逻辑回归中,结果(因变量)只有有限数量的可能值。

例如,如果X包含房屋的平方英尺面积,Y包含这些房屋的相应售价,则可以使用线性回归来预测售价随房屋大小的变化。虽然可能售价实际上可能没有任何,有一个线性回归模型将选择这么多的可能值。

相反,如果您想根据规模预测房子的售价是否超过20万美元,则可以使用逻辑回归。可能的输出是“是”,该房屋的售价将超过20万美元,或者是“否”,该房屋的售价不会超过$ 200K。


3
在癌症的安德鲁斯逻辑回归示例中,我可以画一条水平线y = .5(显然会通过y = .5),如果该点上的任何点y = .5 => + ve,则为十,否则为-ve 。那么为什么我需要逻辑回归。我只是想了解使用逻辑回归的最佳案例解释?
Vinita 2015年

@vinita:这里这里是一个简单的示例,用于分类问题,不使用线性回归,然后保持脱粒。
Ankush Shah

3
与线性回归相比,逻辑回归对分类数据的分类效果更好。它使用交叉熵误差函数代替最小二乘。因此,它并不是对异常值敏感,也不会像最小二乘一样惩罚“太正确”的数据点。
Marcel_marcel1991年

15

只是为了补充以前的答案。

线性回归

旨在解决预测/估计给定元素X的输出值的问题(例如f(x))。预测结果是一个连续函数,其中值可以为正或负。在这种情况下,通常会有一个包含大量示例的输入数据集,以及每个示例的输出值。目标是使模型适合此数据集,以便您能够预测新的不同/从未见过的元素的输出。以下是将直线拟合到一组点的经典示例,但通常可以使用线性回归来拟合更复杂的模型(使用更高的多项式度):

在此处输入图片说明 解决问题

Linea回归可以通过两种不同的方式解决:

  1. 正态方程(解决问题的直接方法)
  2. 梯度下降(迭代法)

逻辑回归

旨在解决分类问题,在给定元素的情况下,您必须将其分类为N个类别。例如,给定典型示例,例如给定邮件以将其归类为垃圾邮件或不归类为垃圾邮件,或者给定属于其所属类别的车辆(汽车,卡车,货车等)。基本上,输出是一组有限的离散值。

解决问题

仅通过使用“梯度下降”才能解决逻辑回归问题。通常,该公式与线性回归非常相似,唯一的区别是使用不同的假设函数。在线性回归中,假设的形式为:

h(x) = theta_0 + theta_1*x_1 + theta_2*x_2 .. 

其中theta是我们要拟合的模型,[1,x_1,x_2,..]是输入向量。在逻辑回归中,假设函数是不同的:

g(x) = 1 / (1 + e^-x)

在此处输入图片说明

该函数具有很好的属性,基本上它将任何值映射到[0,1]范围,该范围适合处理分类过程中的概率。例如,在二进制分类的情况下,g(X)可以解释为属于肯定类别的概率。在这种情况下,通常您会有不同的类,这些类之间有一个决策边界,该边界基本上是一条曲线,用于确定不同类之间的分离。以下是分为两个类的数据集的示例。

在此处输入图片说明


7

它们在解决方案上都非常相似,但是正如其他人所说,一个(逻辑回归)用于预测类别“拟合”(Y / N或1/0),另一个(线性回归)用于预测一个值。

因此,如果您想预测自己是否患有癌症(是/否)(或可能性),请使用logistic。如果您想知道您将生活多少年,请使用线性回归!


6

基本区别:

线性回归基本上是一个回归模型,这意味着它将给出函数的不离散/连续输出。因此,这种方法具有价值。例如:给定x是f(x)

例如,给定一组不同的因素的训练以及训练后的房地产价格,我们可以提供所需的因素来确定房地产价格。

Logistic回归基本上是一种二元分类算法,这意味着此处将有该函数的离散值输出。例如:对于给定的x,如果f(x)> threshold将其分类为1,否则将其分类为0。

例如,给定一组脑肿瘤大小作为训练数据,我们可以使用大小作为输入来确定其是良性还是恶性肿瘤。因此,此处的输出谨慎为0或1。

*这里的函数基本上是假设函数


5

简而言之,线性回归是一种回归算法,它超过了可能的连续和无限值。Logistic回归被认为是二进制分类器算法,该算法输出属于标签(0或1)的输入的“概率”。


谢天谢地,我读了你关于概率的笔记。即将注销logistic作为二进制分类器。
HashRocketSyntax

4

回归表示连续变量,线性表示y和x之间存在线性关系。例如,您正在尝试根据多年的经验来预测薪水。因此,这里的薪水是自变量(y),经验的年限是因变量(x)。y = b0 + b1 * x1 线性回归 我们试图找到常数b0和b1的最佳值,这将为您的观测数据提供最佳拟合线。它是线的方程,给出从x = 0到非常大的连续值。这条线称为线性回归模型。

Logistic回归是分类技术的类型。术语回归会误导Dnt。在这里我们预测y = 0还是1。

在这里,我们首先需要根据以下形式从x中找到p(y = 1)(y = 1的概率)。

概率

概率p通过以下形式与y相关

s

例如,我们可以将肿瘤发生几率超过50%的肿瘤分类为1,将肿瘤发生几率小于50%的肿瘤分类为0。 5

在这里,红点将被预测为0,而绿点将被预测为1。


1

简而言之:线性回归可提供连续输出。即,值范围之间的任何值。Logistic回归给出离散输出。即是/否,0/1类型的输出。


1

无法完全同意以上评论。除此之外,还有更多区别,例如

在线性回归中,残差被假定为正态分布。在Logistic回归中,残差需要独立但不能正态分布。

线性回归假设解释变量值的恒定变化导致响应变量的恒定变化。如果响应变量的值表示概率,则该假设不成立(按Logistic回归)

GLM(广义线性模型)不假设因变量和自变量之间存在线性关系。但是,它假设链接函数与logit模型中的自变量之间存在线性关系。


1
| Basis                                                           | Linear                                                                         | Logistic                                                                                                            |
|-----------------------------------------------------------------|--------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------|
| Basic                                                           | The data is modelled using a straight line.                                    | The probability of some obtained event is represented as a linear function of a combination of predictor variables. |
| Linear relationship between dependent and independent variables | Is required                                                                    | Not required                                                                                                        |
| The independent variable                                        | Could be correlated with each other. (Specially in multiple linear regression) | Should not be correlated with each other (no multicollinearity exist).                                              |

0

简而言之,如果在线性回归模型中有更多的测试用例到达,而这些预测用例与用于y = 1和y = 0的预测的阈值(例如= 0.5)相距甚远。这样一来假说就会改变并变得更糟。因此,线性回归模型不用于分类问题。

另一个问题是,如果分类为y = 0和y = 1,则h(x)可以> 1或<0.因此我们使用Logistic回归将0 <= h(x)<= 1。


0

Logistic回归用于预测分类输出,例如“是/否”,“低/中/高”等。您基本上有2种类型的Logistic回归Binary Logistic回归(“ Yes / No”,“ Approved / Disapproved”)或多类Logistic回归(“ Low / Medium”) /高,数字从0-9等)

另一方面,线性回归是指因变量(y)是连续的。y = mx + c是一个简单的线性回归方程(m =斜率,c是y轴截距)。多线性回归具有1个以上的自变量(x1,x2,x3 ...等)


0

在线性回归中,结果是连续的,而在逻辑回归中,结果只有有限数量的可能值(离散)。

示例:在一种情况下,给定的x值是以平方英尺为单位的图的大小,然后预测y,即图的比率处于线性回归之下。

相反,如果您想根据规模预测该地块的售价是否超过300000卢比,则可以使用逻辑回归。可能的输出是“是,该地块的售价将超过300000卢比”,或者是“否”。


0

如果是线性回归,则结果是连续的,而如果是Logistic回归,则结果是离散的(不连续)

为了执行线性回归,我们需要因变量和自变量之间具有线性关系。但是,执行Logistic回归时,我们不需要因变量和自变量之间存在线性关系。

线性回归是关于在数据中拟合直线,而逻辑回归是关于在数据中拟合曲线。

线性回归是机器学习的回归算法,而逻辑回归是机器学习的分类算法。

线性回归假设因变量的高斯(或正态)分布。Logistic回归假设因变量的二项式分布。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.