线性与非线性回归


13

我有一组值和,它们在理论上呈指数相关:xy

y=axb

一种获取系数的方法是在两侧应用自然对数并拟合线性模型:

> fit <- lm(log(y)~log(x))
> a <- exp(fit$coefficients[1])
> b <- fit$coefficients[2]

获得此结果的另一种方法是使用非线性回归,给定一组理论上的起始值:

> fit <- nls(y~a*x^b, start=c(a=50, b=1.3))

如果应用第二种算法,我的测试将显示出更好且与理论相关的结果。但是,我想知道每种方法的统计意义和含义。

他们哪个更好?


3
请看一下有关类似问题的帖子本文可能也很有趣。
COOLSerdash

5
“指数”通常表示基于以下内容exp():您在此处拥有的通常称为幂函数,幂定律或缩放定律。无疑存在其他名称。在假设检验的意义上,与权力无关。
Nick Cox

Answers:


16

“更好”是您的模型的功能。

造成混淆的部分原因是您只编写了一半的模型。

当您说,实际上并非如此。您观察到的y等于a x b;他们有一个错误组件。ÿ=一种Xbÿ一种Xb

例如,您提到的两个模型(无论如何不是唯一可能的模型)对错误做出了完全不同的假设。

您可能是说更接近Ëÿ|X=X=一种Xb

但是,对于在给定x时偏离期望值的变化,我们怎么说呢?这很重要!ÿX

  • 当您拟合非线性最小二乘模型时,就是说误差是累加的,并且误差的标准偏差在整个数据中是恒定的:

    ÿ一世ñ一种X一世bσ2

    或同等

    ÿ一世=一种X一世b+Ë一世变种Ë一世=σ2

  • 相比之下,当您获取日志并拟合线性模型时,您的意思是误差在对数刻度上和(在对数刻度上)是整个数据的常数。这意味着在观察的范围内,误差项是可乘的,因此,当期望值较大时,误差也较大:

    ÿ一世登录日志一种+b日志X一世σ2

    或同等

    ÿ一世=一种X一世bη一世η一世登录0σ2

    Ëησ2

(您可以在不假设正态分布/对数正态分布的情况下进行最小二乘,但所讨论的中心问题仍然适用...如果您离正态分布还差得远,则可能仍应考虑使用其他误差模型)

因此,最好的方法取决于描述您情况的错误模型。

ÿXX


9

当您拟合任何一个模型时,您都假定残差集(Y的观测值与预测值之间的差异)遵循高斯分布。如果该假设适用于原始数据(非线性回归),则对数转换后的值(线性回归)将不成立,反之亦然。

哪种模式更好?该模型的假设与数据最接近的一种。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.