统计检验以查看关系是线性还是非线性


9

我有一个示例数据集,如下所示:

Volume <- seq(1,20,0.1)
var1 <- 100 
x2 <- 1000000
x3 <- 30

x4 = sqrt(x2/pi)
H = x3 - Volume
r = (x4*H)/(H + Volume)

Power = (var1*x2)/(100*(pi*Volume/3)*(x4*x4 + x4*r + r*r))

Power <- jitter(Power, factor = 1, amount = 0.1)
plot(Volume,Power)

在此处输入图片说明

从图中可以看出,在“体积”和“功率”的特定范围之间,关系是线性的,然后,当“体积”变得相对小时,关系变为非线性。有统计检验可以说明这一点吗?

关于对《任择议定书》的答复中显示的一些建议:

此处显示的示例只是一个示例,尽管噪声较大,但我拥有的数据集看起来与此处看到的关系相似。到目前为止,我进行的分析表明,当我分析特定液体的体积时,当体积较小时,信号的功率会急剧增加。因此,可以说我只有一个音量在15到20之间的环境,几乎就像线性关系。但是,通过增加点的范围(即具有较小的体积),我们看到该关系完全不是线性的。我现在正在寻找有关如何统计显示这一点的统计建议。希望这是有道理的。


5
这里发生了几件事。首先,当然,只要变量的范围受到适当限制,关系就会看起来是线性的。其次,数据的异方差性几乎与非线性关系一样突出:在大容量和低功率时,散射比在小容量和高功率时更大。无论如何,您到底要测试什么?关系在整个范围内的线性关系?
whuber

4
实际上,我想回想一下关于异方差性的说法:该图给出了这种现象的外观,但这是由较低体积的相对陡峭的坡度引起的错觉。(但是,就功率而言,体积具有极度的异方差关系。)一旦我们确定功率的变化不是异方差的,就排除了某些类型的分析(我们不想应用功率的非线性变换)并建议一旦清楚地建立了非线性,便会偏爱其他变量(例如非线性最小二乘法或广义线性模型)。
whuber

现在,我对当前问题进行了简短描述。到目前为止,感谢您的评论,我们非常感谢您的评论,它们正在帮助我思考问题。
KatyB

为什么不测试二次效应?
2013年

2
@Simon我没有使用任何测试,但是通过将残差的典型大小与体积作图,您可以看到这是同调的。这是一些R代码:plot(s <- by(cbind(Power, Volume), groups <- cut(Volume, 10), function(d) summary(lm(Power ~ Volume, data=d))$sigma), xlab="Volume range", ylab="Residual SD", ylim=c(0, max(s))); abline(h=mean(s), lty=2, col="Blue")。它显示了整个范围内几乎恒定的残留尺寸。
ub

Answers:


4

这基本上是一个模型选择问题。我鼓励您选择一组物理上可行的模型(线性,指数形式,也许是不连续的线性关系),并使用Akaike信息准则或贝叶斯信息准则来选择最佳模型-请记住@whuber指出的异方差问题。


2

您是否尝试过使用Google搜索!?一种方法是将更高的幂或其他非线性项拟合到模型中,并测试其系数是否显着不同于0。

这里有一些例子http://www.albany.edu/~po467/EPI553/Fall_2006/regression_assumptions.pdf

在您的情况下,您可能需要将数据集分为两部分,以测试体积<5的非线性和体积> 5的线性。

您遇到的另一个问题是您的数据是异方差的,这违反了回归数据的正态性假设。提供的链接还提供了为此进行测试的示例。


链接断开。
贾汀

2

我建议使用非线性回归使一个模型适合您的所有数据。选择任意体积并将一个模型拟合为小于该体积的模型,而将另一个模型拟合为较大的体积,这有什么意义呢?除了数字之外,是否有任何理由将5用作临界阈值?您是否真的相信在特定的音量阈值之后,理想曲线是线性的?它不是随着音量的增加而接近水平的可能性,而是永远不会完全线性吗?

当然,分析工具的选择必须取决于您要回答的科学问题以及您对该系统的先验知识。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.