非线性回归周围的置信度和预测范围是否应该围绕回归线对称?这意味着它们不像线性回归带那样呈沙漏形状。这是为什么?
这是有问题的模型:
这是下图:
这是等式:
非线性回归周围的置信度和预测范围是否应该围绕回归线对称?这意味着它们不像线性回归带那样呈沙漏形状。这是为什么?
这是有问题的模型:
这是下图:
这是等式:
Answers:
预期的置信度和预测范围通常会越来越大-出于同样的原因,在常规回归中它们总是这样做。通常,参数不确定性导致末端附近的间隔比中间距离大
通过模拟给定模型中的数据或通过模拟参数向量的采样分布,您可以通过模拟轻松地看到这一点。
进行非线性回归的通常的(近似正确的)计算包括采用局部线性近似(这在Harvey的答案中给出),但是即使没有这些,我们也可以对发生的事情有所了解。
但是,进行实际的计算并非易事,并且可能是程序可能会在计算中采取捷径而忽略了这种影响。对于某些数据和某些模型,效果可能相对较小并且很难看到。确实,在预测间隔内,尤其是在方差较大但数据很多的情况下,有时可能很难在普通线性回归中看到曲线-它们看起来几乎是笔直的,并且辨别与笔直性的偏差相对容易。
这是一个仅用均值的置信区间很难看的示例(预测区间可能很难看清,因为它们的相对变化要小得多)。这是一些数据和非线性最小二乘拟合,具有总体平均值的置信区间(在这种情况下,由于我知道真实的模型,因此是根据采样分布生成的,但可以通过渐近逼近或自举来完成一些非常相似的操作):
紫色边界看起来几乎与蓝色预测平行……但事实并非如此。这是这些均值预测的采样分布的标准误差:
这显然不是恒定的。
编辑:
您刚刚发布的那些“ sp”表达式直接来自线性回归的预测间隔!
Y-hat +/- sp(Y-hat)
在此交叉验证页面中解释了通过非线性回归计算置信度和曲线预测带的数学方法。它表明频段并不总是/通常是对称的。
这是一个用更少的单词和更少的数学解释:
首先,让我们定义G | x,它是在特定X值下并使用所有参数的最佳拟合值的参数梯度。结果是一个向量,每个参数一个元素。对于每个参数,它定义为dY / dP,其中Y是给定特定X值和所有最佳拟合参数值的曲线的Y值,P是其中一个参数。)
G'| x是转置的梯度矢量,因此它是一列而不是一行值。Cov是协方差矩阵(上次迭代的逆Hessian)。它是一个正方形矩阵,行和列的数量等于参数的数量。矩阵中的每一项都是两个参数之间的协方差。我们使用Cov来指代归一化协方差矩阵,其中每个值在-1和1之间。
现在计算
c = G'| x * Cov * G | x。
结果是任何X值的单个数字。
置信带和预测带以最佳拟合曲线为中心,并在曲线的上方和下方延伸相等的量。
置信带在曲线上方和下方延伸:
= sqrt(c)* sqrt(SS / DF)* CriticalT(Confidence%,DF)
预测带在曲线的上方和下方进一步延伸,等于:
= sqrt(c + 1)* sqrt(SS / DF)* CriticalT(Confidence%,DF)
在这两个方程中,c的值(上面定义)取决于X的值,因此置信度和预测带距曲线的距离不是恒定的。SS的值是拟合的平方和,而DF是自由度的数量(数据点的数量减去参数的数量)。CriticalT是基于t分布的常数,该分布基于所需的置信度(传统上为95%)和自由度数。对于95%的限制和相当大的df,该值接近1.96。如果DF小,则该值较高。