是否可以在不使用绘图和线性代数的情况下完成简单的线性回归?


47

我完全是盲人,来自编程背景。

我想做的是学习机器学习,为此,我首先需要学习线性回归。我在互联网上找到的有关该主题的所有说明都首先绘制了数据。我正在寻找不依赖于图和图的线性回归的实用解释。

这是我对简单线性回归的目标的理解:

简单的线性回归试图找到一旦给出的公式,即可X为您提供最接近的估算值Y

因此,据我所知,需要做的是将预测变量(例如,以平方英尺为单位的房屋面积)与自变量(价格)进行比较。在我的示例中,您可能可以创建一种非可视的方法,以获取最佳公式以从房屋面积计算房屋价格。例如,也许您会得到附近一千套房屋的面积和价格,然后将价格除以面积?结果(至少在我所居住的伊朗)差异很小。因此,您可能会得到以下信息:

Price = 2333 Rials * Area of the house

当然,您将需要遍历数据集中的所有1000栋房屋,将面积放在上面的公式中,将估算值与实际价格进行比较,对结果求平方(我想防止差异互相抵消)然后获取一个数字,然后继续使用2333来减少错误。

当然,这是蛮力选择,可能需要花费很多时间才能计算出错误并得出最佳选择,但是您明白我的意思了吗?我没有说任何关于图形,线条,情节上的点的信息,也不是将线条拟合到现有数据的最佳方法。

那么,为什么要为此需要散点图和线性代数呢?有没有非视觉的方式?

首先,我的假设正确吗?如果没有,我希望得到纠正。我是否可以在不使用线性代数的情况下提出公式?

如果能得到一个带有解释的示例,我将不胜感激,以便我可以将其与文字一起使用以检验我的理解。


2
但是,您是否拥有可以接管愿景的空间想象力?如果是,我想可以以某种方式想象散点图。我怀疑回归的本质能否仅通过命题思维(例如言语)来捕捉。
ttnphns

3
你的数学背景是什么?Wikipedia页面上称为简单线性回归的大部分是文本,在第一段中我认为是相当清晰的描述。那篇文章与您正在寻找的详细程度相比如何?
shadowtalker '16

3
我会继续考虑它,看看我是否可以提出,但是马上就考虑将回归视为解决无解的方程式。回归器(房屋面积)会错误地预测所有数据点。您正在寻找使您的错误尽可能容忍的方程式。
Antoni Parellada'4

8
一个很好的问题,我们需要更多地考虑向残疾人解释我们的概念
Aksakal'Apris

4
您不需要使用绘图。确实,对于多重线性回归(具有许多预测变量的回归),您无法绘制维空间。但是,线性代数仍然有效。线性回归中涉及的所有线性代数公式都可以简化为对简单标量数的运算。如果您珍惜自己的理智,那只是不想手工做。p+1
推测

Answers:


17

是的,你上了。您必须不断尝试2333,直到找到合适的2333,以最大程度地减少错误。但是,找到一种数学方法可以找到“正确的”方法。我们将该数字称为。,平方误差(SSE)的总和为的函数因为对于每个选择可以计算每个估计是关闭的量,将其平方和求和在一起。Ë β ββEββ

什么最大限度地减少误差平方的总和?这只是一个微积分问题。将的导数乘并将其设置为零。这给出了的等式。检查二阶导数是否为正,以了解这是最小值。因此,您得到了的方程式,该方程式使误差最小。Ë β β ββEβββ

如果以这种方式派生,则将得到作为总和。如果写出估计的线性代数形式,您会发现这是同一回事。β

编辑:这是这种派生类型的一些注释的链接。数学有点混乱,但从根本上讲,这只是一个微积分问题。


我的天啊。最后!一种非线性代数的计算方法。您在回答中所谈论的概念无所适从,但是我一定会研究衍生工具,以便更好地理解这种思路。
Parham Doustdar '16

1
我链接到一些注释,这些注释在基本的层次上进行了解释。我认为任何答案都需要微积分,因为您解决诸如“找到的最小值”之类的问题的方法是采用导数并将其设置为零。直观上,这就是说山的最小(或最大)将是山平的地方(因为坡度沿山的侧面最高!)。导数=斜率。因此,在更改区域中,几乎不会引起变化,您接近最小值(或最大值。您需要确保它不是最大值!)。β ËE(β)βE
克里斯·拉卡卡斯

4
然后,这个想法将带您进入机器学习。机器学习中的基本方法之一是体面梯度。这基本上就是“跟随坡度”。如果您继续让球向山坡最陡的方向滚动,您将击中最小值。因此,梯度体面方法就是要精确地做到这一点:找出更改哪种方式会使误差最大程度地降低并走这种方式!β
克里斯·拉卡卡斯

2
对于最小二乘回归,您不需要做像样的梯度,因为您可以求解方程式来解决问题,但这为理解什么是机器学习提供了一种很好的方法。归结为选择一种测量误差的方法,然后找到某种方法来最小化误差方程。结果是通过数据学习到的“最佳”估计方程。希望对您的机器学习有所帮助!
克里斯·拉卡卡斯

10

您的理解很接近,但需要扩展:简单的线性回归试图找到公式,一旦您给出公式,X它就会Y 根据 X 之间的线性关系为您提供最接近的估计Y

您的房价示例稍作扩展,说明了为什么最终会出现散点图之类的情况。首先,在其他情况下,简单地将价格除以面积是不起作用的,例如在我家乡的土地价格上,那里的建筑法规意味着仅拥有一块可以在其上建造房屋的土地就具有很高的价值。因此,土地价格不仅仅与面积成正比。宗地面积的每次增加都可能使宗地价值增加相同,但是如果您一直下降到0宗(神话)宗地,则仍然会有一个关联的表观价格,该价格代表仅拥有一块土地的价值被批准建造。

那仍然是面积和值之间的线性关系,但是在关系中存在一个截距,表示仅拥有宗地的值。是什么使这仍然一个线性关系是,改变每单位值的变化在区域中,斜率或的回归系数,总是相同而不管区域或值的大小的。

假设您已经知道将宗地面积与价值相关的截距和坡度,然后将线性关系中的值与最近销售代表的实际值进行比较。您将发现预测值和实际值很少重合。这些差异代表模型中的误差,并导致预测关系周围的值分散。您会得到围绕散布在面积和值之间的预测直线关系上的点的散点图。

在大多数实际示例中,您都不知道截距和斜率,因此您必须尝试根据数据进行估算。这就是线性回归试图做到的。

最大似然估计的角度考虑线性回归和相关建模可能会更好,这是在模型中搜索使数据最可能出现的特定参数值。它与您在问题中提出的“强力”方法类似,但是对您要优化的内容的度量有所不同。使用现代的计算方法和智能的搜索模式设计,可以很快完成。

可以用不需要图形绘制的方式将最大似然估计概念化,并且类似于您似乎已经在思考的方式。在线性回归的情况下,标准最小二乘回归和最大似然都提供相同的截距和斜率估计值。

根据最大似然性进行思考还具有另一个优势,即它可以更好地扩展到没有严格线性关系的其他情况。逻辑回归是一个很好的例子,您可以在其中尝试根据预测变量来估计事件发生的可能性。这可以通过最大似然来实现,但是与标准线性回归不同,没有简单的方程可产生逻辑回归中的截距和斜率。


1
我认为“线性回归”中的“线性”是指“参数中的线性”,因此您可能将作为自变量,但是每个自变量的系数必须以线性方式出现?x2

@fcop你是正确的。我从OP提供的示例开始,该示例假定了值和面积之间的比例关系。当使用幂或对数转换时,我倾向于将原始预测变量的转换值视为回归中的实际独立变量。我认为,尽管隐含错误模型存在差异,但实际上在实践中主要是术语上的差异。
EdM 2016年

无论如何,我明白你的意思,这是一个不错的答案(+1)

6

首先,我的赞美。每个人都很难与统计数据抗争(我是一名医生,所以您可以猜测这对我有多困难)...

我不能提出线性回归视觉解释,而是非常接近的东西:线性回归触觉解释

想象一下,您正在从门进入房间。房间或多或少是正方形,门在左下角。您希望到达下一个房间,您希望该房间的门或多或少位于右上角。想象一下,您无法确切地说出隔壁的位置(曾经!),但是房间里散布着一些人,他们可以告诉您要去哪一间。他们都看不见,但可以告诉您附近有什么。在此人的指引下,您到达下一扇门的最终路径类似于回归线,该回归线可最小化这些人之间的距离,并带您进入门,接近(如果不在)正确的路径。


1
(+1)我非常喜欢您的示例,很有趣的是,由于巧合,我们为该问题使用了非常相似的插图!
蒂姆

“房间或多或少是正方形的”-盲人的正方形是什么?这句话使您回到了开始的地方。
阿克萨卡尔州

4
我不同意 让他们沿一个方向走10英尺,然后让他们转动90°(例如伸胳膊),再让他们走10英尺。如果您看不正确的话,那就是正方形。
Joe_74 '16

@ GiuseppeBiondi-Zoccai,如果我要在室内对温度建立压力模型,为什么还要提出正方形和直线以及其他空间概念?如果您不是盲人,那么这当然很方便,但是对于盲人来说,这些空间类比并没有为当前的问题带来任何
好处

2
再次,我礼貌地不同意……我一直认为盲人特别具有触觉空间技巧。无论如何,任何可行的示例都可以,而且更好。
Joe_74 '16

3

Andrew Gelman和David K.Park(2012)提供了一个可以帮助您解决问题的好例子。让我们坚持你的预测房子价格的例子给它的面积。为此,我们使用简单的线性回归模型XYX

Y=β0+β1X+ε

为了简单起见,让我们截距,您可以检查此线程以了解其重要性。该数据可以在散点图上可视化。什么是散点图?想象一个二维空间(它可能是一个房间),数据点在该位置周围“分散”,两个变量的值都标记了它们的轴和轴位置。您已经知道,它以某种方式转换为线性回归模型。 ÿ Xβ0yx

为了清楚起见,让我们进一步简化此示例-正如Gelman和Park所做的那样。他们提出的简化是将β 1X变量(即房屋面积)分为三类:“小型”,“中型”和“大型”房屋(它们描述了如何最佳地做出这样的决定,但是重要性较小)。接下来,计算“小”房子的平均大小和“大”房子的平均大小。还计算“小”房子和“大”房子的平均价格。现在,将数据减少到两点-散布在空间中的小型和大型房屋的数据点云的中心,并删除有关“中型”房屋的所有数据点。您在二维空间中只剩下两个点。回归线是连接点的线-您可以将其视为从一个点到另一个点的方向。 β1

当我们有更多点散布在空间上时,也会发生同样的情况:回归线通过最小化到每个点的平方距离找到自己的方式。因此,线正好穿过分散在空间中的点云的中心。您可以将其视为无限数量的此类中心点,而不是连接两个点。


Gelman,A.,&Park,DK(2012)。在上四分之一或三分之一和下四分之一或三分之一处拆分预测变量。美国统计学家,62(4),1-8。


3

简短的答案是,是的。哪条线最适合穿过整个或仅是飞机或标枪表面的所有点的中间?画出来; 在你的头上或在图片上。您正在寻找一条单独的直线,从该直线上每个点(感兴趣的点,无论是否绘制点)将对该直线造成的总偏差最小(在点中)。如果您通过肉眼观察(根据常识),则将近似(非常好)数学计算的结果。为此,有一些公式会打扰眼睛,可能没有常识。在工程学和科学中类似的形式化问题中,散点图仍然需要进行肉眼的初步评估,但是在那些领域中,人们应该提出“测试”可能性,即一条线是一条线。它从那里下坡。然而,您显然是想教一台机器来(有效地)估量(a)bar的大小和(b)里面散落的牲畜的边界。如果给您的机器相当于房地产和居住者的图片(图形,代数),则它应该能够弄清楚(中线将blob整齐地分为两部分,将计算得出的散点图分成一行)您想要做的事情。任何体面的统计教科书(要求老师或教授列举多个)都应首先说明线性回归的全部要点,以及在最简单的情况下(针对不简单的情况)如何做到这一点。以后有很多椒盐脆饼,您会喜欢的。如果给您的机器相当于房地产和居住者的图片(图形,代数),则它应该能够弄清楚(中线将blob整齐地分为两部分,将计算得出的散点图分成一行)您想要做的事情。任何体面的统计教科书(要求老师或教授列举多个)都应首先说明线性回归的全部要点,以及在最简单的情况下(针对不简单的情况)如何做到这一点。以后有很多椒盐脆饼,您会喜欢的。如果给您的机器相当于房地产和居住者的图片(图形,代数),则它应该能够弄清楚(中线将blob整齐地分为两部分,将计算得出的散点图分成一行)您想要做的事情。任何体面的统计教科书(要求老师或教授列举多个)都应首先说明线性回归的全部要点,以及在最简单的情况下(针对不简单的情况)如何做到这一点。以后有很多椒盐脆饼,您会喜欢的。任何体面的统计教科书(要求老师或教授列举多个)都应首先说明线性回归的全部要点,以及在最简单的情况下(针对不简单的情况)如何做到这一点。以后有很多椒盐脆饼,您会喜欢的。任何体面的统计教科书(要求老师或教授列举多个)都应首先说明线性回归的全部要点,以及在最简单的情况下(针对不简单的情况)如何做到这一点。以后有很多椒盐脆饼,您会喜欢的。


在上述Re:Silverfish对我的帖子的评论中(除了向该评论添加评论以外,似乎没有其他简单的方法),是的,OP是盲目的,正在学习机器学习,并且要求实用性而没有图表或图形,但是我认为他能够将“视觉化”与“视觉”区分开,视觉化并拥有真实的图画,并且对周围物体(房屋等)的各种物理形态有基本的了解,因此他仍然可以“无论在数学上还是脑海中都可以画出“绘画”,并且可能可以将2D和3D很好地表现在纸上。如今,各种各样的书籍和其他文字都可以通过实体盲文以及自己计算机上的电子语音(例如论坛,词典等)获得,而且许多盲人学校都有相当完整的课程。比起飞机或标枪,沙发或拐杖不一定更合适,并且可能提供统计数据。他不太关心机器如何学习绘制曲线图或计算回归,而是关心机器如何学会做等效的(甚至更基本的)事情来掌握回归(机器是否可以显示,响应,遵循)。它,避免它或其他原因)。主要的推力(对于盲人和有视力的学生)仍然是如何可视化非可视化内容(例如线性概念,而不是自欧几里得和毕达哥拉斯之前的画线实例),以及如何可视化非可视化内容。特殊线性类型的基本目的(回归,其基本点最适合最小偏差,(自数学和统计学的早期开始)。线路印刷者的Fortran回归输出在精神上被吸收之前几乎是“视觉上的”,但即使回归的基本点也是虚构的(只有在出于特定目的而行时才存在)。


2
也许我对这个答案有误解,但是“将其绘制在您的头上或图片上”似乎有点遗漏了问题的要点:最初的问题是由一个完全失明的人提出的,因此寻找一个非盲人。回归的视觉方式。
银鱼

@Silverfish的回复(太长了,不能发表评论)已被编辑为上述答案

谢谢。我认为那票选票有点苛刻(不是我),但是这个答案中的某些语言选择是不幸的(例如,有很多提到“用眼”做事)。不过,我可以理解为什么您要区分视觉感知和可以通过“头脑”可视化的东西。
Silverfish

2
我可以想象脑海中的事物。只是我没有使用相同的可视化方式。不使用draw或不是问题visualize。只是使用概念来获得可视化效果,而不是相反。我发现这在数学中的很多地方都会发生。为了解释一个困难的主题,通常使用形状和图像,而不是将计算与学习者从现实生活中知道的概念联系起来。
Parham Doustdar '16

3

普遍使用图来引入简单回归(由单个预测变量预测的响应)的原因是它们有助于理解。

但是,我相信我可以提供一些有助于理解所发生情况的味道。在本文中,我将主要集中于尝试传达他们所提供的一些理解,这可能有助于您在阅读回归时通常会遇到的其他一些方面。因此,此答案将主要针对您帖子的特定方面。

想象一下,您坐在一张宽大的矩形桌子前,例如一张普通的办公桌,一张全臂长(也许1.8米),宽约一半。

您以通常的姿势坐在桌子前,在长边的中间。在此桌子上,将大量的钉子(具有相当光滑的头部)锤打到顶面上,以便每个钉子都稍微戳一下(足以感觉到它们在哪里,并且足以在它们上系绳子或系上橡皮筋) )。

这些钉子与办公桌边缘之间的距离不同,以这种方式,它们的一端(例如左端)通常更靠近办公桌的边缘,然后当您朝另一端移动时,钉头往往离您的边缘更远。

进一步想象一下,了解指甲沿边缘的任何给定位置平均距离边缘多远会很有用。

在书桌边缘选择一个位置,然后将手放在那儿,然后向前伸直穿过桌子,轻轻地将手直接向后拖,然后再次移开,将手在钉子头上来回移动。您会在这些钉子上碰到几十个颠簸-在您狭窄的手掌范围内(因为钉子直接从边缘移开,与办公桌的左端保持恒定的距离),一段或条带,大约十厘米宽。

这个想法是要弄清楚从那一小段桌脚到钉子的平均距离。直观地,这只是碰到的颠簸的中间,但是如果我们测量桌子的整个手掌宽部分中每个钉子的距离,我们可以轻松地计算出这些平均值。

例如,我们可以使用一个T形方形,其头部沿着桌子的边缘滑动,并且杆身朝桌子的另一侧延伸,但是正好在桌子的上方,因此当它向左滑动时,我们不会碰到钉子或正确-当我们通过给定的钉子时,我们可以沿着T形方格的轴获取其距离。

因此,在沿着我们边缘的地方不断前进的过程中,我们重复进行此操作,即在一条手宽度的带子中找到所有钉子,这些钉子朝向和远离我们,并找出它们的平均距离。也许我们沿着桌子的边缘将桌子分成多个手工宽度的条带(因此每个钉子恰好在一条条带中碰到)。

现在,假设有21条这样的条带,第一个在左边缘,最后一个在右边缘。随着我们在条带上前进,手段离我们的办公桌边缘越来越远。

这些均值构成了简单的非参数回归估计量,该估计量是给定x(沿我们的边缘到左端的距离)(即E(y | x))对y(我们的距离)的期望。具体来说,这是合并的非参数回归估计量,也称为回归图

如果这些条带均值有规律地增加-也就是说,平均值通常以与跨条带移动相同的每条带量增加-那么我们可以通过假设y的期望值是线性的来更好地估计回归函数x的函数-即给定x的y的期望值是一个常数加x的倍数。这里的常数表示当我们在x处为零时指甲会趋向于何处(通常我们可以将其放置在最左端,但不一定是),并且x的特定倍数是平均数的平均值会随着我们向右移动一厘米(例如)而发生变化。

但是如何找到这样的线性函数呢?

想象一下,我们在每个钉子头上缠绕一根橡皮筋,然后将它们绑在桌子上方,钉子上方的一根细长棒上,使棒子紧贴在每根钉子的“中间”附近对于。

我们以这样的方式绑紧绑带,即绑带只能在朝着和远离我们的方向上伸展(而不是向左或向右)-绑在自己身上,他们会向后拉,以使其与棍棒成直角伸展,但在此我们避免了这种情况,因此它们的伸展方向仅保持在朝向或远离办公桌边缘的方向上。现在,当带子将钉子拉向每个钉子时,让棒子沉降,距离较远的钉子(带有更长的橡皮筋)的拉动力要比靠近棒子的钉子更硬。

然后,将所有条带拉到棍上的总结果是(理想情况下,至少是)拉动棍,以使拉伸的橡胶带的平方长度的总和最小化;在该方向上,直接在桌子上,从桌子的边缘到任意x位置的棍子的距离,将是我们对x给出的y期望值的估计。

这本质上是线性回归估计。

现在,想象一下,我们有一棵大树上悬挂着许多水果(而不是钉子),而不是钉子,我们希望找到水果在地面上的平均距离,因为它在地面上的位置会有所不同。想象一下,在这种情况下,地面上的高度会随着我们的前进而变大,而当我们向右运动时会略微变大,这又是有规律的,所以前进的每一步通常会将平均高度改变大约相同的量,并且每一步都会改变右移也会使平均值平均变化一个常数(但是,这种右移的平均值变化量与前移的变化量不同)。

如果我们最小化从水果到薄平板(也许是很硬的塑料薄片)的垂直距离平方的总和,以便弄清平均高度在我们向前或向右移动时如何变化,那将是具有两个预测变量的线性回归-多元回归。

这是情节可以帮助理解的仅有两种情况(它们可以迅速显示出我刚才详细描述的内容,但希望您知道有一个概念可以将相同的思想概念化)。除了这两种最简单的情况外,我们只剩下数学上的内容。

现在以您的房价为例;您可以沿桌子的边缘按距离表示每个房屋的面积-将最大的房屋大小表示为靠近右边缘的位置,其他每个房屋大小都将在距左侧更远的某个位置,其中一定的厘米数将代表一些平方米数。现在,距离代表销售价格。代表最昂贵的房子,因为靠近桌子最远的边缘(与往常一样,离您的椅子最远的边缘)有一些特定的距离,每偏移一厘米便代表一定数量的Rials。

对于目前的想象,我们选择表示形式是这样的:办公桌的左边缘对应于零房屋面积,近边缘对应于房屋价格0。然后为每座房屋钉上钉子。

我们可能在边缘的左端附近没有钉子(它们可能大多朝右并远离我们),因为这不一定是合适的比例尺选择,但您选择的非截距模型可以做到这一点一种更好的讨论方式。

现在,在您的模型中,您迫使操纵杆穿过桌子近端左角的一串弦-从而迫使拟合的模型的零区域价格为零,这看起来很自然-但请想象是否存在价格的某些相当恒定的成分会影响每次销售。然后,使截距不同于零是有意义的。

无论如何,加上该循环,与以前相同的橡皮筋练习将找到我们对该线的最小二乘估计。


哇,谢谢您冗长的空间解答。它解释了很多。谢谢。
Parham Doustdar '16

2

您是否遇到过经常在酒店中找到的烤面包机。您将面包的一端放在传送带上,另一端则变成烤面包。不幸的是,在这家廉价酒店的烤面包机中,加热器的位置全部移动到从烤面包机入口到烤炉的随机高度和距离。您不能移动加热器或弯曲传送带的路径(顺便说一下,这是直的(这是线性钻头进入的地方)),但是您可以更改传送带的高度和倾斜度。

在给定所有加热器的位置的情况下,线性回归将告诉您正确的高度和角度,以放置皮带以获取最大的热量。这是因为线性回归将使烤面包和加热器之间的平均距离最小化。

我的第一个假期工作是手工进行线性回归。说你不想那样做的人是对的!!!


2

我最喜欢的线性回归解释是几何,而不是视觉。它将数据集视为高维空间中的单个点,而不是将其分解为二维空间中的点云。

房屋的面积和价格是一对数字,您可以将其视为二维空间中点的坐标。一千个房屋的面积和价格是一千对数字,您可以将其视为点 二维空间中的。为了方便起见,我将二维空间称为“数据空间”。您的数据集是数据空间中的单个点。p a p a 1a 1000 p 1p 1000 D = a 1a,1000p 1p 1000Dap(a,p)a1,,a1000p1,,p1000

D=(a1,,a1000,p1,,p1000)
D

如果区域和价格之间的关系是完全线性的,则点将位于数据空间的一个非常特殊的区域,我将其称为“线性表”。它由点 数字和可以变化,但是被固定为与数据集中显示的区域相同的区域。我称线性工作表为“工作表”是因为它是二维的:它的一个点由两个坐标和D

M(ρ,β)=(a1,,a1000,ρa1+β,,ρa1000+β).
ρβa1,,a1000ρβ。如果您想了解线性板的形状,请想象一下一条细长的直导线在三维空间中延伸。线性工作表是这样的:它完全平坦,并且其尺寸与其内部空间的尺寸相比非常小。

在实际邻里中,面积和价格之间的关系不会完全线性,因此点不会恰好位于线性表上。但是,它可能非常靠近线性表。线性回归的目标是在线性工作表上找到最接近数据点的点。那一点是数据的最佳线性模型。DM(ρ,β)D

使用勾股定理,您可以得出与之间距离的平方为 换句话说,数据点和模型点之间的距离就是模型的总平方误差!最小化模型的总平方误差与最小化模型与数据空间中数据之间的距离相同。中号ρ β [ p 1 - ρ 一个1 + β ] 2 + ... + [ p 1000 - ρ 一个1000 + β ] 2DM(ρ,β)

[p1(ρa1+β)]2++[p1000(ρa1000+β)]2.

正如Chris Rackauckas 指出的那样,微积分提供了一种非常实用的方法来查找坐标和,以最小化与之间的距离。β d 中号ρ β ρβDM(ρ,β)


1

@Chris Rackauckas和@EDM的答案就在现场。有许多方法可以进行简单的线性回归,而无需对普通最小二乘估计进行绘图或直观说明,并且它们对运行OLS时实际发生的情况给出了非常扎实的说明。

我可能会补充说,使用散点图作为指导工具来学习任何新的建模过程,无论是老式的参数化模型,高级的机器学习知识还是贝叶斯算法,绘图都可以帮助减少学习特定内容所需的时间。算法呢。

当您首次开始使用新数据集时,图形对于探索性数据分析也非常重要。在某些情况下,我收集了很多数据,制定了理论,仔细规划了我的模型,然后运行它,但最终结果基本上没有预测力。绘制双变量关系可以消除一些猜测:在您的示例中,房屋价格可能与面积呈线性关系,但这种关系不是线性的。散点图可帮助您确定在回归中是否需要更高阶的项,或者是否要使用与线性回归不同的方法,或者是否要使用某种非参数方法。


1

Google for Anscombe Quartet。

它显示了4组数据,这些数据在数字检查中并没有太大差异。

但是,在创建可视散点图时,差异变得明显可见。

它给出了一个非常清晰的视图,为什么您应该始终绘制数据,进行回归或不进行回归:-)


0

我们希望有一个最小化预测值与实际值之间差异的解决方案。

我们假设即存在线性关系。y=bx+a

我们不在乎假定的误差分布具有某些性质时,预测与实际之差是正还是负。ÿyy

如果我们假设误差的分布是正态分布的,那么事实证明有一个针对这种最小化问题的解析解决方案。差平方和是最小化最佳拟合的最佳值。但是一般情况下不需要正常。

真的没有更多了。

因为平方和具有散点图上点距的距离之和的形式,所以可以方便地进行几何解释。人眼非常擅长逼近最适合的线条。因此,在我们有计算机快速找到合适的位置之前,这很方便。y=bx+a

如今,它更多地是作为理解的帮助,但实际上不必理解线性回归。

编辑:用正确但不太简洁的列表替换了错误假设的正态性。正态性必须要有一个解析解,并且可以在许多实际情况下采用正态性,在这种情况下,平方和不仅对于线性估计器而言是最佳的,而且还使似然性最大化。

如果进一步保持误差分布的正态性假设,则平方和在线性和非线性估计量之间都是最佳的,并且使似然性最大化。


1
您所描述的任何内容都不需要正态分布假设
Aksakal


该链接与您的答案无关。如果您扩展到小样本属性或MLE,则可以引入正态分布假设,但是因为它代表了答案中的OLS描述,所以不需要正态分布。实际上,要最小化平方和,您根本不需要任何分布或统计信息。这是纯代数。
Aksakal

关键是关于为什么我们要最小化平方和而不是其他度量。与如何最小化平方和无关。
迭戈

最小化平方和与正态分布无关。这只是您的损失功能。此损失函数可以使用任何其他误差分布。在某些情况下,您需要使用分布,例如,如果要对小样本等中的参数值进行推论。即使在这种情况下,您也可以使用其他分布,但我不确定为什么会坚持正常。
阿克萨卡尔邦
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.