线性回归和逻辑回归之间有什么区别？

242

当我们必须预测分类（或离散）结果的值时，我们使用逻辑回归。我相信我们可以使用线性回归来根据输入值来预测结果的值。

那么，两种方法有什么区别？

machine-learning data-mining linear-regression

— 伦敦人
source

270

线性回归输出作为概率

将线性回归输出用作概率很诱人，但这是一个错误，因为输出可以为负，大于1而概率则不能。由于回归实际上可能会产生小于0或什至大于1的概率，因此引入了逻辑回归。

资料来源：http : //gerardnico.com/wiki/data_mining/simple_logistic_regression
结果

在线性回归中，结果（因变量）是连续的。它可以具有无限数量的可能值中的任何一个。

在逻辑回归中，结果（因变量）只有有限数量的可能值。
因变量

当响应变量本质上是分类时，使用逻辑回归。例如，是/否，是/否，红色/绿色/蓝色，第一/第二/第三/第四等。

当您的响应变量是连续的时，将使用线性回归。例如，体重，身高，小时数等。
方程

线性回归给出的方程式形式为Y = mX + C，表示度数为1的方程式。

但是，逻辑回归给出的方程式为Y = e ^X + e ^-X
系数解释

在线性回归中，自变量的系数解释非常简单（即，使所有其他变量保持不变，并且此变量增加单位，因变量预计将增加/减少xxx）。

但是，在逻辑回归中，取决于所使用的族（二项式，泊松等）和链接（对数，对数，逆对数等），其解释是不同的。
误差最小化技术

线性回归使用普通的最小二乘法来最小化误差并获得最佳拟合，而逻辑回归使用最大似然法来求解。

线性回归通常是通过最小化模型对数据的最小二乘误差来解决的，因此对大误差进行二次惩罚。

逻辑回归正好相反。使用逻辑损失函数会导致将较大的误差惩罚为渐近常数。

考虑对分类{0，1}的结果进行线性回归，以了解为什么这是一个问题。如果您的模型预测结果为38，那么当真值为1时，您什么也不会损失。线性回归会尝试将其减少38，而logistic不会（尽可能）²。

— 萨亚利·索纳瓦尼（Sayali Sonawane）
source

Y = e ^ X / 1 + e ^ -X和Y = e ^ X + e ^ -X之间是否有区别？

— MMS

3

e ^ X / 1吗？除以1的结果相同。所以没有区别。我确定您是要问其他问题。

— 太空漫游者

我知道这是一个旧线程，但是根据您的陈述，“当响应变量本质上是分类时，将使用Logistic回归。例如，是/否，是/否，红色/绿色/蓝色，第一/第二/第三/第四，等等“; 那么和分类之间有什么区别？

— kingJulian

@kingJulian Logistic回归确实用于分类。检查这个了，你可能会发现，因为我有它有用

— QuantumHoneybees

@kingJulian：逻辑回归是一种分类技术，分类代表几种试图预测很少结果的算法。

— user3676305

204

在线性回归中，结果（因变量）是连续的。它可以具有无限数量的可能值中的任何一个。在逻辑回归中，结果（因变量）只有有限数量的可能值。

例如，如果X包含房屋的平方英尺面积，Y包含这些房屋的相应售价，则可以使用线性回归来预测售价随房屋大小的变化。虽然可能售价实际上可能没有任何，有一个线性回归模型将选择这么多的可能值。

相反，如果您想根据规模预测房子的售价是否超过20万美元，则可以使用逻辑回归。可能的输出是“是”，该房屋的售价将超过20万美元，或者是“否”，该房屋的售价不会超过$ 200K。

— 埃里克·G
source

3

在癌症的安德鲁斯逻辑回归示例中，我可以画一条水平线y = .5（显然会通过y = .5），如果该点上的任何点y = .5 => + ve，则为十，否则为-ve 。那么为什么我需要逻辑回归。我只是想了解使用逻辑回归的最佳案例解释？

— Vinita 2015年

@vinita：这里或这里是一个简单的示例，用于分类问题，不使用线性回归，然后保持脱粒。

— Ankush Shah

3

与线性回归相比，逻辑回归对分类数据的分类效果更好。它使用交叉熵误差函数代替最小二乘。因此，它并不是对异常值敏感，也不会像最小二乘一样惩罚“太正确”的数据点。

— Marcel_marcel1991年

15

只是为了补充以前的答案。

线性回归

旨在解决预测/估计给定元素X的输出值的问题（例如f（x））。预测结果是一个连续函数，其中值可以为正或负。在这种情况下，通常会有一个包含大量示例的输入数据集，以及每个示例的输出值。目标是使模型适合此数据集，以便您能够预测新的不同/从未见过的元素的输出。以下是将直线拟合到一组点的经典示例，但通常可以使用线性回归来拟合更复杂的模型（使用更高的多项式度）：

解决问题

Linea回归可以通过两种不同的方式解决：

正态方程（解决问题的直接方法）
梯度下降（迭代法）

逻辑回归

旨在解决分类问题，在给定元素的情况下，您必须将其分类为N个类别。例如，给定典型示例，例如给定邮件以将其归类为垃圾邮件或不归类为垃圾邮件，或者给定属于其所属类别的车辆（汽车，卡车，货车等）。基本上，输出是一组有限的离散值。

解决问题

仅通过使用“梯度下降”才能解决逻辑回归问题。通常，该公式与线性回归非常相似，唯一的区别是使用不同的假设函数。在线性回归中，假设的形式为：

h(x) = theta_0 + theta_1*x_1 + theta_2*x_2 ..

其中theta是我们要拟合的模型，[1，x_1，x_2，..]是输入向量。在逻辑回归中，假设函数是不同的：

g(x) = 1 / (1 + e^-x)

该函数具有很好的属性，基本上它将任何值映射到[0,1]范围，该范围适合处理分类过程中的概率。例如，在二进制分类的情况下，g（X）可以解释为属于肯定类别的概率。在这种情况下，通常您会有不同的类，这些类之间有一个决策边界，该边界基本上是一条曲线，用于确定不同类之间的分离。以下是分为两个类的数据集的示例。

— 尔卡恰
source

7

它们在解决方案上都非常相似，但是正如其他人所说，一个（逻辑回归）用于预测类别“拟合”（Y / N或1/0），另一个（线性回归）用于预测一个值。

因此，如果您想预测自己是否患有癌症（是/否）（或可能性），请使用logistic。如果您想知道您将生活多少年，请使用线性回归！

— 道格
source

6

基本区别：

线性回归基本上是一个回归模型，这意味着它将给出函数的不离散/连续输出。因此，这种方法具有价值。例如：给定x是f（x）

例如，给定一组不同的因素的训练以及训练后的房地产价格，我们可以提供所需的因素来确定房地产价格。

Logistic回归基本上是一种二元分类算法，这意味着此处将有该函数的离散值输出。例如：对于给定的x，如果f（x）> threshold将其分类为1，否则将其分类为0。

例如，给定一组脑肿瘤大小作为训练数据，我们可以使用大小作为输入来确定其是良性还是恶性肿瘤。因此，此处的输出谨慎为0或1。

*这里的函数基本上是假设函数

— 萨坦坦·戈什
source

5

简而言之，线性回归是一种回归算法，它超过了可能的连续和无限值。Logistic回归被认为是二进制分类器算法，该算法输出属于标签（0或1）的输入的“概率”。

— 陈
source

谢天谢地，我读了你关于概率的笔记。即将注销logistic作为二进制分类器。

— HashRocketSyntax

4

回归表示连续变量，线性表示y和x之间存在线性关系。例如，您正在尝试根据多年的经验来预测薪水。因此，这里的薪水是自变量（y），经验的年限是因变量（x）。y = b0 + b1 * x1 我们试图找到常数b0和b1的最佳值，这将为您的观测数据提供最佳拟合线。它是线的方程，给出从x = 0到非常大的连续值。这条线称为线性回归模型。

Logistic回归是分类技术的类型。术语回归会误导Dnt。在这里我们预测y = 0还是1。

在这里，我们首先需要根据以下形式从x中找到p（y = 1）（y = 1的概率）。

概率p通过以下形式与y相关

例如，我们可以将肿瘤发生几率超过50％的肿瘤分类为1，将肿瘤发生几率小于50％的肿瘤分类为0。

在这里，红点将被预测为0，而绿点将被预测为1。

— 艾希什·阿南（Ashish Anand）
source

1

简而言之：线性回归可提供连续输出。即，值范围之间的任何值。Logistic回归给出离散输出。即是/否，0/1类型的输出。

— Sudeep K Rana
source

1

无法完全同意以上评论。除此之外，还有更多区别，例如

在线性回归中，残差被假定为正态分布。在Logistic回归中，残差需要独立但不能正态分布。

线性回归假设解释变量值的恒定变化导致响应变量的恒定变化。如果响应变量的值表示概率，则该假设不成立（按Logistic回归）

GLM（广义线性模型）不假设因变量和自变量之间存在线性关系。但是，它假设链接函数与logit模型中的自变量之间存在线性关系。

— 拉肯德·杜巴
source

1

| Basis                                                           | Linear                                                                         | Logistic                                                                                                            |
|-----------------------------------------------------------------|--------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------|
| Basic                                                           | The data is modelled using a straight line.                                    | The probability of some obtained event is represented as a linear function of a combination of predictor variables. |
| Linear relationship between dependent and independent variables | Is required                                                                    | Not required                                                                                                        |
| The independent variable                                        | Could be correlated with each other. (Specially in multiple linear regression) | Should not be correlated with each other (no multicollinearity exist).                                              |

— 交响乐
source

0

简而言之，如果在线性回归模型中有更多的测试用例到达，而这些预测用例与用于y = 1和y = 0的预测的阈值（例如= 0.5）相距甚远。这样一来假说就会改变并变得更糟。因此，线性回归模型不用于分类问题。

另一个问题是，如果分类为y = 0和y = 1，则h（x）可以> 1或<0.因此我们使用Logistic回归将0 <= h（x）<= 1。

— 阿达什·巴哈杜尔
source

0

Logistic回归用于预测分类输出，例如“是/否”，“低/中/高”等。您基本上有2种类型的Logistic回归Binary Logistic回归（“ Yes / No”，“ Approved / Disapproved”）或多类Logistic回归（“ Low / Medium”） /高，数字从0-9等）

另一方面，线性回归是指因变量（y）是连续的。y = mx + c是一个简单的线性回归方程（m =斜率，c是y轴截距）。多线性回归具有1个以上的自变量（x1，x2，x3 ...等）

— 凯坦·索兰基
source

0

在线性回归中，结果是连续的，而在逻辑回归中，结果只有有限数量的可能值（离散）。

示例：在一种情况下，给定的x值是以平方英尺为单位的图的大小，然后预测y，即图的比率处于线性回归之下。

相反，如果您想根据规模预测该地块的售价是否超过300000卢比，则可以使用逻辑回归。可能的输出是“是，该地块的售价将超过300000卢比”，或者是“否”。

— 普拉迪普·库马尔
source

0

如果是线性回归，则结果是连续的，而如果是Logistic回归，则结果是离散的（不连续）

为了执行线性回归，我们需要因变量和自变量之间具有线性关系。但是，执行Logistic回归时，我们不需要因变量和自变量之间存在线性关系。

线性回归是关于在数据中拟合直线，而逻辑回归是关于在数据中拟合曲线。

线性回归是机器学习的回归算法，而逻辑回归是机器学习的分类算法。

线性回归假设因变量的高斯（或正态）分布。Logistic回归假设因变量的二项式分布。

— 桑迪普R
source