非线性回归的置信度形状和预测区间


13

非线性回归周围的置信度和预测范围是否应该围绕回归线对称?这意味着它们不像线性回归带那样呈沙漏形状。这是为什么?

这是有问题的模型: 这是下图:

F(x)=(AD1+(xC)B)+D

http://i57.tinypic.com/2q099ok.jpg

这是等式:

在此处输入图片说明


您的问题尚不清楚,因为您从询问第一句中它们是否“应该是对称的”转变为暗示它们不在句子2中并询问(大概)为什么不在句子3中。这个更一致/清楚吗?
gung-恢复莫妮卡

好的,让我这样问-当回归是非线性的时,为什么置信度和预测带在回归线周围对称,而当回归是线性时却呈沙漏形?
Serge 2014年

只是提供一些评论,以防他们有所帮助:看来您的响应必须是非负的,并在收敛到(或接近,而这些频段显然是使用独立的附加误差模型建立的。这使它们不切实际,尤其是在左侧。此外,蓝点的图案表明该误差具有很强的序列相关性,在构建这些谱带时也需要考虑这一点。尽管您可能不想应对数据中的这种额外复杂性进行拟合,但它表明您绘制的波段并不值钱。000
ub

你是对的。乐队确实进入了负面领域。但是,我对频段本身的值不感兴趣,而对与频段限制相对应的EC50值感兴趣。除了以这种方式构造乐队之外,还有其他选择吗?
Serge 2014年

是的,但是正如我暗示的那样,它们可能会变得复杂。广义最小二乘法和时间序列方法可以应对序列相关性。因变量的非线性变换是处理非加性误差的一种工具。更复杂的工具是广义线性模型。选择部分取决于因变量的性质。顺便说一句,尽管我不确定您所说的“ EC50值”是什么意思(听起来您是在建立剂量反应关系的模型),但是从图中所示的谱带计算得出的任何结果都是可疑的。
whuber

Answers:


8

预期的置信度和预测范围通常会越来越大-出于同样的原因,在常规回归中它们总是这样做。通常,参数不确定性导致末端附近的间隔比中间距离大

通过模拟给定模型中的数据或通过模拟参数向量的采样分布,您可以通过模拟轻松地看到这一点。

进行非线性回归的通常的(近似正确的)计算包括采用局部线性近似(这在Harvey的答案中给出),但是即使没有这些,我们也可以对发生的事情有所了解。

但是,进行实际的计算并非易事,并且可能是程序可能会在计算中采取捷径而忽略了这种影响。对于某些数据和某些模型,效果可能相对较小并且很难看到。确实,在预测间隔内,尤其是在方差较大但数据很多的情况下,有时可能很难在普通线性回归中看到曲线-它们看起来几乎是笔直的,并且辨别与笔直性的偏差相对容易。

这是一个仅用均值的置信区间很难看的示例(预测区间可能很难看清,因为它们的相对变化要小得多)。这是一些数据和非线性最小二乘拟合,具有总体平均值的置信区间(在这种情况下,由于我知道真实的模型,因此是根据采样分布生成的,但可以通过渐近逼近或自举来完成一些非常相似的操作):

在此处输入图片说明

紫色边界看起来几乎与蓝色预测平行……但事实并非如此。这是这些均值预测的采样分布的标准误差:

在此处输入图片说明

这显然不是恒定的。


编辑:

您刚刚发布的那些“ sp”表达式直接来自线性回归的预测间隔!


您是否还说,即使在非线性回归的情况下,参数不确定性随着远离中心而增加也会导致频带在末端变宽,但这不是那么明显吗?还是有理论上的原因为什么在非线性回归的情况下这种扩大不会发生?我的乐队看起来很对称。
Serge 2014年

1
这种扩展应该是典型的,但在每个非线性模型中都不会以相同的方式发生,并且在每个模型中都不会那样明显,并且因为这样做不那么容易,所以给定程序可能无法以这种方式进行计算。我不知道您正在查看的频段是如何计算的-我不是一个头脑阅读器,而且我什至看不到您没有提到其名称的程序代码。
Glen_b-恢复莫妮卡2014年

@ user1505202,这仍然是一个很难完全回答的问题。您能否说明您的模型是什么(其功能形式)?您能附上令人困惑的人物形象吗?
gung-恢复莫妮卡

1
谢谢。我确实有这些数字,并且它们基本上是常数-回归线和每个预测极限之间的差值从中间的18.21074到末端的18.24877。因此,略有扩大,但非常微小。顺便说一下,@ gung,我得到了计算预测间隔的方程式。是:Y-hat +/- sp(Y-hat)
Serge 2014年

1
这就是在样本间隔较大的预测间隔内可能会看到的变化。什么啊
Glen_b-恢复莫妮卡2014年

5

此交叉验证页面中解释了通过非线性回归计算置信度和曲线预测带的数学方法它表明频段并不总是/通常是对称的。

这是一个用更少的单词和更少的数学解释:

首先,让我们定义G | x,它是在特定X值下并使用所有参数的最佳拟合值的参数梯度。结果是一个向量,每个参数一个元素。对于每个参数,它定义为dY / dP,其中Y是给定特定X值和所有最佳拟合参数值的曲线的Y值,P是其中一个参数。)

G'| x是转置的梯度矢量,因此它是一列而不是一行值。Cov是协方差矩阵(上次迭代的逆Hessian)。它是一个正方形矩阵,行和列的数量等于参数的数量。矩阵中的每一项都是两个参数之间的协方差。我们使用Cov来指代归一化协方差矩阵,其中每个值在-1和1之间。

现在计算

c = G'| x * Cov * G | x。

结果是任何X值的单个数字。

置信带和预测带以最佳拟合曲线为中心,并在曲线的上方和下方延伸相等的量。

置信带在曲线上方和下方延伸:

= sqrt(c)* sqrt(SS / DF)* CriticalT(Confidence%,DF)

预测带在曲线的上方和下方进一步延伸,等于:

= sqrt(c + 1)* sqrt(SS / DF)* CriticalT(Confidence%,DF)

在这两个方程中,c的值(上面定义)取决于X的值,因此置信度和预测带距曲线的距离不是恒定的。SS的值是拟合的平方和,而DF是自由度的数量(数据点的数量减去参数的数量)。CriticalT是基于t分布的常数,该分布基于所需的置信度(传统上为95%)和自由度数。对于95%的限制和相当大的df,该值接近1.96。如果DF小,则该值较高。


谢谢,哈维。我正在为我的函数获取参数的梯度。您是否偶然知道一个可行的示例,因为我也不清楚如何获得协方差矩阵。
Serge 2014年

如果使用GraphPad Prism演示,则可以将数据拟合到所需的任何模型,并查看协方差矩阵(在“诊断”选项卡中选择的可选结果)以及置信度或预测范围(既是数字又是图形;还可以选择诊断标签)。作为一个很好的例子,这不是一个很好的例子,但是至少您可以比较协方差矩阵,看看问题是在发生之前还是之后……
Harvey Motulsky 2014年

不过有两件事。棱镜确实给了我Cov矩阵。但是,整个数据集只有一个数字。我不应该为每个X值获得一个值吗?2.我在图中获得了预测范围,但我希望输出包含这些值。棱镜似乎没有这样做。我对Prism并不陌生,因此可能没有到处看,但是我尝试了!
Serge

1.协方差矩阵显示参数交织的程度。因此,您要求非线性回归拟合的每对参数都有一个值。2.在“范围”选项卡上,查看“棱镜”以曲线的XY坐标为表格,并为置信度或预测范围添加正负值。3.要获得Prism的技术支持,请发送电子邮件至support@graphpad.com。使用此论坛来回答统计问题,而不是技术支持。
Harvey Motulsky
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.