理解这种回归现象的两种主要方法是代数的 -通过操纵正则方程和公式求解的-以及几何的。 如问题本身所示,代数很好。但是,有几种有用的回归几何公式。在这种情况下,可视化空间中的数据将提供洞察力(x,y)(x,x2,y),否则可能难以获得。
我们付出了需要看三维物体的代价,这在静态屏幕上很难做到。(我发现无休止的旋转图像很烦人,因此即使对您有帮助,也不会对您造成任何影响。)因此,此答案可能并不吸引所有人。但是那些愿意在他们的想象力中增加第三个维度的人将会得到回报。我建议通过一些精心选择的图形来帮助您实现这一目标。
让我们从可视化自变量开始。在二次回归模型中
yi=β0+β1(xi)+β2(x2i)+error,(1)
两个项和在观察之间可能有所不同:它们是自变量。我们可以将所有有序对绘制为平面中点对应于和 还揭示了在可能的有序对的曲线上绘制所有点(xi)(x2i)(xi,x2i)xx2.(t,t2):
通过将此图向后倾斜并使用该方向的垂直方向,可以在第三维中可视化响应(因变量)。每个响应都绘制为一个点符号。这些模拟数据由第一张图中所示的三个位置的每一个的十个响应堆栈组成;每个堆栈的可能标高都以灰色垂直线显示:(x,x2)
二次回归使平面适合这些点。
(我们怎么知道呢?因为对于任何参数的选择在集合点空间,满足公式是零套功能其限定一个平面垂直于所述载体 解析几何的该位也为我们提供了图片的定量支持:因为这些插图中使用的参数是和并且两者相比都大该平面几乎是垂直的且定向的在平面对角线。)(β0,β1,β2),(x,x2,y)(1)−β1(x)−β2(x2)+(1)y−β0,(−β1,−β2,1).β1=−55/8β2=15/2,1,(x,x2)
这是适合这些点的最小二乘平面:
在平面上,我们可能假设方程式为我将曲线 “提升” 到曲线并用黑色绘制。y=f(x,x2),(t,t2)
t→(t,t2,f(t,t2))
让我们向后倾斜所有内容,以便仅显示和轴,而使轴从屏幕上不可见地下降:xyx2
您可以看到提升的曲线如何精确地是所需的二次回归:它是所有有序对的轨迹,其中是将自变量设置为时的拟合值(x,y^)y^x.
该拟合曲线的置信带描述了当数据点随机变化时拟合可能发生的情况。 在不改变观点的情况下,我已绘制了五个拟合平面(及其提升的曲线)到五个独立的新数据集(其中仅显示了一个):
为了帮助您更好地了解这一点,我还使飞机变得几乎透明。显然,提升的曲线倾向于在和附近具有相互交集x≈1.75x≈3.
我们将鼠标悬停在三维图上方,并沿着平面的对角线轴稍微向下看,看一下同一件事。 为了帮助您了解平面如何变化,我还压缩了垂直尺寸。
垂直的金色围栏显示曲线上方的所有点,因此您可以更轻松地看到它如何提升到所有五个拟合平面。从概念上讲,通过改变数据来找到置信带,这会导致拟合平面发生变化,从而改变提升曲线,从而在每个值处找出可能拟合值的包络(t,t2)(x,x2).
现在,我相信可以进行明确的几何解释。由于形式几乎在其平面上对齐,因此所有拟合平面将围绕位于这些点上方的一条公共线旋转(并一点点摆动)。(令是该线向下到平面的投影:它将紧密近似第一张图中的曲线。)当这些平面变化时,提升曲线的变化量(垂直地)在任何给定位置将是成正比的距离从位于(xi,x2i)L(x,x2)(x,x2)(x,x2)L.
该图返回到原始平面透视图,以在自变量平面中显示相对于曲线。曲线上最接近的两个点用红色标记。在这里,大约是随着响应随机变化,拟合平面趋于最接近的位置。因此,在相应的值(大约和)处的提升曲线将趋于在这些点附近变化最小。Lt→(t,t2)Lx1.72.9
代数上,找到那些“节点”是解决二次方程式的问题:因此,最多将存在两个。因此,我们可以预期,作为一般性命题,对数据进行二次拟合的置信带最多可以有两个最接近的地方-但不超过此。(x,y)
从概念上讲,此分析适用于高阶多项式回归,并且通常适用于多元回归。尽管我们不能真正“看到”三个以上的维,但是线性回归的数学保证了从此处所示类型的二维和三维图得出的直觉在较高维中仍保持准确。