普遍使用图来引入简单回归(由单个预测变量预测的响应)的原因是它们有助于理解。
但是,我相信我可以提供一些有助于理解所发生情况的味道。在本文中,我将主要集中于尝试传达他们所提供的一些理解,这可能有助于您在阅读回归时通常会遇到的其他一些方面。因此,此答案将主要针对您帖子的特定方面。
想象一下,您坐在一张宽大的矩形桌子前,例如一张普通的办公桌,一张全臂长(也许1.8米),宽约一半。
您以通常的姿势坐在桌子前,在长边的中间。在此桌子上,将大量的钉子(具有相当光滑的头部)锤打到顶面上,以便每个钉子都稍微戳一下(足以感觉到它们在哪里,并且足以在它们上系绳子或系上橡皮筋) )。
这些钉子与办公桌边缘之间的距离不同,以这种方式,它们的一端(例如左端)通常更靠近办公桌的边缘,然后当您朝另一端移动时,钉头往往离您的边缘更远。
进一步想象一下,了解指甲沿边缘的任何给定位置平均距离边缘多远会很有用。
在书桌边缘选择一个位置,然后将手放在那儿,然后向前伸直穿过桌子,轻轻地将手直接向后拖,然后再次移开,将手在钉子头上来回移动。您会在这些钉子上碰到几十个颠簸-在您狭窄的手掌范围内(因为钉子直接从边缘移开,与办公桌的左端保持恒定的距离),一段或条带,大约十厘米宽。
这个想法是要弄清楚从那一小段桌脚到钉子的平均距离。直观地,这只是碰到的颠簸的中间,但是如果我们测量桌子的整个手掌宽部分中每个钉子的距离,我们可以轻松地计算出这些平均值。
例如,我们可以使用一个T形方形,其头部沿着桌子的边缘滑动,并且杆身朝桌子的另一侧延伸,但是正好在桌子的上方,因此当它向左滑动时,我们不会碰到钉子或正确-当我们通过给定的钉子时,我们可以沿着T形方格的轴获取其距离。
因此,在沿着我们边缘的地方不断前进的过程中,我们重复进行此操作,即在一条手宽度的带子中找到所有钉子,这些钉子朝向和远离我们,并找出它们的平均距离。也许我们沿着桌子的边缘将桌子分成多个手工宽度的条带(因此每个钉子恰好在一条条带中碰到)。
现在,假设有21条这样的条带,第一个在左边缘,最后一个在右边缘。随着我们在条带上前进,手段离我们的办公桌边缘越来越远。
这些均值构成了简单的非参数回归估计量,该估计量是给定x(沿我们的边缘到左端的距离)(即E(y | x))对y(我们的距离)的期望。具体来说,这是合并的非参数回归估计量,也称为回归图
如果这些条带均值有规律地增加-也就是说,平均值通常以与跨条带移动相同的每条带量增加-那么我们可以通过假设y的期望值是线性的来更好地估计回归函数x的函数-即给定x的y的期望值是一个常数加x的倍数。这里的常数表示当我们在x处为零时指甲会趋向于何处(通常我们可以将其放置在最左端,但不一定是),并且x的特定倍数是平均数的平均值会随着我们向右移动一厘米(例如)而发生变化。
但是如何找到这样的线性函数呢?
想象一下,我们在每个钉子头上缠绕一根橡皮筋,然后将它们绑在桌子上方,钉子上方的一根细长棒上,使棒子紧贴在每根钉子的“中间”附近对于。
我们以这样的方式绑紧绑带,即绑带只能在朝着和远离我们的方向上伸展(而不是向左或向右)-绑在自己身上,他们会向后拉,以使其与棍棒成直角伸展,但在此我们避免了这种情况,因此它们的伸展方向仅保持在朝向或远离办公桌边缘的方向上。现在,当带子将钉子拉向每个钉子时,让棒子沉降,距离较远的钉子(带有更长的橡皮筋)的拉动力要比靠近棒子的钉子更硬。
然后,将所有条带拉到棍上的总结果是(理想情况下,至少是)拉动棍,以使拉伸的橡胶带的平方长度的总和最小化;在该方向上,直接在桌子上,从桌子的边缘到任意x位置的棍子的距离,将是我们对x给出的y期望值的估计。
这本质上是线性回归估计。
现在,想象一下,我们有一棵大树上悬挂着许多水果(而不是钉子),而不是钉子,我们希望找到水果在地面上的平均距离,因为它在地面上的位置会有所不同。想象一下,在这种情况下,地面上的高度会随着我们的前进而变大,而当我们向右运动时会略微变大,这又是有规律的,所以前进的每一步通常会将平均高度改变大约相同的量,并且每一步都会改变右移也会使平均值平均变化一个常数(但是,这种右移的平均值变化量与前移的变化量不同)。
如果我们最小化从水果到薄平板(也许是很硬的塑料薄片)的垂直距离平方的总和,以便弄清平均高度在我们向前或向右移动时如何变化,那将是具有两个预测变量的线性回归-多元回归。
这是情节可以帮助理解的仅有两种情况(它们可以迅速显示出我刚才详细描述的内容,但希望您知道有一个概念可以将相同的思想概念化)。除了这两种最简单的情况外,我们只剩下数学上的内容。
现在以您的房价为例;您可以沿桌子的边缘按距离表示每个房屋的面积-将最大的房屋大小表示为靠近右边缘的位置,其他每个房屋大小都将在距左侧更远的某个位置,其中一定的厘米数将代表一些平方米数。现在,距离代表销售价格。代表最昂贵的房子,因为靠近桌子最远的边缘(与往常一样,离您的椅子最远的边缘)有一些特定的距离,每偏移一厘米便代表一定数量的Rials。
对于目前的想象,我们选择表示形式是这样的:办公桌的左边缘对应于零房屋面积,近边缘对应于房屋价格0。然后为每座房屋钉上钉子。
我们可能在边缘的左端附近没有钉子(它们可能大多朝右并远离我们),因为这不一定是合适的比例尺选择,但您选择的非截距模型可以做到这一点一种更好的讨论方式。
现在,在您的模型中,您迫使操纵杆穿过桌子近端左角的一串弦-从而迫使拟合的模型的零区域价格为零,这看起来很自然-但请想象是否存在价格的某些相当恒定的成分会影响每次销售。然后,使截距不同于零是有意义的。
无论如何,加上该循环,与以前相同的橡皮筋练习将找到我们对该线的最小二乘估计。