了解多项式回归(MLR)的置信区间的形状


11

我很难掌握多项式回归的置信区间的形状。

这是一个人工示例,。左图显示了UPV(无标度预测方差),右图显示了置信区间和(人工)在X = 1.5,X = 2和X = 3处的测量点。Y^=a+bX+cX2

基础数据的详细信息:

  • 数据集由三个数据点(1.5; 1),(2; 2.5)和(3; 2.5)组成。

  • 每个点被“测量”了10次,每个测量值属于。对30个结果点进行了具有多项式模型的MLR。y±0.5

  • 的置信区间计算与式 和 (两个公式均取自Myers,Montgomery,Anderson-Cook的“ Response Surface Methodology”第四版,第407和34页)

    UPV=Var[y^(x0)]σ^2=x0(XX)1x0
    y^(x0)tα/2,df(error)σ^2x0(XX)1x0
    μy|x0y^(x0)+tα/2,df(error)σ^2x0(XX)1x0.

tα/2,df(error)=2和。σ^2=MSE=SSE/(np)0.075

我对置信区间的绝对值不是特别感兴趣,而是对仅取决于的UPV形状感兴趣。x0(XX)1x0

图1: 在此处输入图片说明

  • 设计空间之外的非常高的预测方差是正常的,因为我们在推断

  • 但是为什么X = 1.5和X = 2之间的方差比测量点小?

  • 为什么对于X = 2上的值,方差会变大,但在X = 2.3后,方差变小,又变得比在X = 3时的测量点小?

在被测点上变小而在它们之间变大是否合乎逻辑?

编辑:相同的过程,但带有数据点[(1.5; 1),(2.25; 2.5),(3; 2.5)]和[(1.5; 1),(2; 2.5),(2.5; 2.2),(3; 2.5)]。

图2: 在此处输入图片说明

图3: 在此处输入图片说明

有趣的是,在图1和2上,这些点的UPV精确等于1。这意味着置信区间将精确等于。随着点数的增加(图3),我们可以获得小于1的测量点的UPV值。y^±tα/2,df(error)MSE


2
您可以编辑帖子以包括您处理的数据吗?
Stephan Kolassa

@StephanKolassa我试图解释我使用了哪些数据。然而,问题更多是笼统的,并不局限于特定的例子。
John Tokka Tacos

如果提供数据,将更容易说明答案。
斯蒂芬·科拉萨

Answers:


6

理解这种回归现象的两种主要方法是代数的 -通过操纵正则方程和公式求解的-以及几何的。 如问题本身所示,代数很好。但是,有几种有用的回归几何公式。在这种情况下,可视化空间中的数据将提供洞察力(x,y)(x,x2,y),否则可能难以获得。

我们付出了需要看三维物体的代价,这在静态屏幕上很难做到。(我发现无休止的旋转图像很烦人,因此即使对您有帮助,也不会对您造成任何影响。)因此,此答案可能并不吸引所有人。但是那些愿意在他们的想象力中增加第三个维度的人将会得到回报。我建议通过一些精心选择的图形来帮助您实现这一目标。


让我们从可视化变量开始。在二次回归模型中

(1)yi=β0+β1(xi)+β2(xi2)+error,

两个项和在观察之间可能有所不同:它们是自变量。我们可以将所有有序对绘制为平面中点对应于和 还揭示了在可能的有序对的曲线上绘制所有点(xi)(xi2)(xi,xi2)xx2.(t,t2):

图1

通过将此图向后倾斜并使用该方向的垂直方向,可以在第三维中可视化响应(因变量)。每个响应都绘制为一个点符号。这些模拟数据由第一张图中所示的三个位置的每一个的十个响应堆栈组成;每个堆栈的可能标高都以灰色垂直线显示:(x,x2)

图2

二次回归使平面适合这些点。

(我们怎么知道呢?因为对于任何参数的选择在集合点空间,满足公式是零套功能其限定一个平面垂直于所述载体 解析几何的该位也为我们提供了图片的定量支持:因为这些插图中使用的参数是和并且两者相比都大该平面几乎是垂直的且定向的在平面对角线。)(β0,β1,β2),(x,x2,y)(1)β1(x)β2(x2)+(1)yβ0,(β1,β2,1).β1=55/8β2=15/2,1,(x,x2)

这是适合这些点的最小二乘平面:

在此处输入图片说明

在平面上,我们可能假设方程式为我将曲线 “提升” 到曲线并用黑色绘制。y=f(x,x2),(t,t2)

t(t,t2,f(t,t2))

让我们向后倾斜所有内容,以便仅显示和轴,而使轴从屏幕上不可见地下降:xyx2

图4

您可以看到提升的曲线如何精确地是所需的二次回归:它是所有有序对的轨迹,其中是将自变量设置为时的拟合值(x,y^)y^x.

该拟合曲线的置信带描述了当数据点随机变化时拟合可能发生的情况。 在不改变观点的情况下,我已绘制了五个拟合平面(及其提升的曲线)到五个独立的新数据集(其中仅显示了一个):

图5

为了帮助您更好地了解这一点,我还使飞机变得几乎透明。显然,提升的曲线倾向于在和附近具有相互交集x1.75x3.

我们将鼠标悬停在三维图上方,并沿着平面的对角线轴稍微向下看,看一下同一件事 为了帮助您了解平面如何变化,我还压缩了垂直尺寸。

图6

垂直的金色围栏显示曲线上方的所有点,因此您可以更轻松地看到它如何提升到所有五个拟合平面。从概念上讲,通过改变数据来找到置信带,这会导致拟合平面发生变化,从而改变提升曲线,从而在每个值处找出可能拟合值的包络(t,t2)(x,x2).

现在,我相信可以进行明确的几何解释。由于形式几乎在其平面上对齐,因此所有拟合平面将围绕位于这些点上方的一条公共线旋转(并一点点摆动)。(令是该线向下到平面的投影:它将紧密近似第一张图中的曲线。)当这些平面变化时,提升曲线的变化量(垂直地)在任何给定位置将是成正比的距离从位于(xi,xi2)L(x,x2)(x,x2)(x,x2)L.

图7

该图返回到原始平面透视图,以在自变量平面中显示相对于曲线。曲线上最接近的两个点用红色标记。在这里,大约是随着响应随机变化,拟合平面趋于最接近的位置。因此,在相应的值(大约和)处的提升曲线将趋于在这些点附近变化最小。Lt(t,t2)Lx1.72.9

代数上,找到那些“节点”是解决二次方程式的问题:因此,最多将存在两个。因此,我们可以预期,作为一般性命题,对数据进行二次拟合的置信带最多可以有两个最接近的地方-但不超过此。(x,y)


从概念上讲,此分析适用于高阶多项式回归,并且通常适用于多元回归。尽管我们不能真正“看到”三个以上的维,但是线性回归的数学保证了从此处所示类型的二维和三维图得出的直觉在较高维中仍保持准确。


谢谢您的出色回答!在我看来,二次回归无法将平面拟合到这些点。这些几何公式非常直观,对我有很大帮助。
John Tokka Tacos

1
这是这样一个伟大的答案-我们应该编译你最好的职位,使它们成为一个开放源码的书
泽维尔Bourret Sicotte

1
@Xavier谢谢您的客气话。我一直在想类似的事情,并欢迎所有建设性的建议和批评。
ub

1

直觉的

在非常直观和粗略的意义上,您可能会看到多项式曲线是缝合在一起的两条线性曲线(一条上升曲线一条递减的曲线)。对于这些线性曲线,您可能还记得中间狭窄形状

峰左侧的点对峰右侧的预测影响相对较小,反之亦然。

  • 因此,您可能会在峰的两边看到两个狭窄的区域(两边的斜率变化影响相对较小)。

  • 峰周围的区域相对不确定,因为曲线斜率的变化在该区域影响更大。您可以绘制许多曲线,但其峰移动幅度较大,但仍会合理地穿过测量点

插图

下面是带有一些不同数据的图示,它更容易地显示出这种模式(可以说是双重结)是如何产生的:

显示双结的预测间隔

set.seed(1)
x <- c(rep(c(-6, -5, 6, 5), 5))
y <- 0.2*x^2 + rnorm(20, 0, 1)
plot(x, y, 
     ylim=c(-10,30), xlim=c(-10,10),
     pch=21, col=1, bg=1, cex=0.3)

data    = list(y=y,           x=x,                x2=x^2)
newdata = list(y=rep(0,3001), x=seq(-15,15,0.01), x2=seq(-15,15,0.01)^2  )

model <- lm(y~1+x+x2, data=data)
predictions = predict(model, newdata = newdata, interval="predict")
lines(newdata$x, predictions[,1])
lines(newdata$x, predictions[,2], lty=2)
lines(newdata$x, predictions[,3], lty=2)

正式

待续:我将在后面的部分中提供更正式的解释。一个人应该能够表达出特定测量点对不同位置的置信区间的影响。在此表达式中,应该更清楚地(明确地)看到某个(随机)测量点的变化如何远离测量点的内插区域中的误差产生更大的影响x

我目前无法很好地理解预测间隔的波浪模式,但是我希望这个粗略的想法足以解决Whuber关于不以二次拟合识别这种模式的评论。一般而言,与二次拟合无关,而与内插无关,而在大多数情况下,无论内插或外推,将预测表示为远离点时,预测的准确性都较差。(当然,当添加更多不同测量点时,这种模式会更加减少)x


1
我很难相信这个特性或其任何结论,因为我敢肯定二次回归不会以这种方式表现出来。您能为他们提供一些理由说服我吗?
ub

1
我想这取决于要点的位置。在示例中,这些点位于峰的两侧。然后,您可以将峰的位置视为一种推断。我将在后面做一个更极端的例子。(我也想知道如何进行回归,但是我想系数的误差被认为是相关的,否则您确实得不到这种模式)
Sextus Empiricus

它确实取决于点的位置,但是以复杂的方式。(代数显示,涉及数据的协方差矩阵的逆。)但是,专注于“峰两侧的点”不一定是正确的,甚至不是有用的描述。继续。系数中的误差几乎总是紧密相关的(除非您确保和正交性),所以这是解释的一部分。为了支持这些论点,我发布了对问题中所用数据的图形分析。x x 2(xi,xi2)xx2
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.