为什么区分“线性”回归和“非线性”回归很重要?


12

区分线性模型和非线性模型的重要性是什么?问题非线性与广义线性模型:您如何指代逻辑回归,泊松等回归?它的答案是对广义线性模型的线性/非线性的非常有帮助的说明。区分线性模型和非线性模型似乎至关重要,但是我不清楚为什么?例如,考虑以下回归模型:

(1)E[YX]=β0+β1X(2)E[YX]=β0+β1X+β2X2(3)E[YX]=β0+β12X(4)E[YX]={1+exp([β0+β1X]}1

模型1和模型2都是线性的,的解以封闭形式存在,可使用标准OLS估计器轻松找到。对于非线性模型3和模型4并非如此,因为 wrt(某些)导数仍然是函数。è [ ÿ | X ] β ββE[YX]ββ

在模型3中估算一种简单解决方案是通过设置来线性化模型,使用线性模型估算,然后计算。 γ = β 2 1 γ β 1 = β1γ=β12γβ1=γ

为了估计模型4中的参数,我们可以假设遵循二项式分布(指数族的成员),并使用模型的逻辑形式为规范链接这一事实来线性化模型的rhs。这是内尔德(Nelder)和韦德本(Wedderburn)的开创性贡献。Y

但是,为什么非线性首先是一个问题?为什么不能简单地使用某种迭代算法来求解模型3而不使用平方根函数进行线性化,或者不使用模型4而不调用GLM。我怀疑在广泛的计算能力之前,统计学家正在尝试线性化所有事物。如果为真,那么非线性带来的“问题”也许是过去的遗迹?非线性模型引入的复杂性仅仅是计算上的,还是存在其他一些理论问题使非线性模型比线性模型更具挑战性?


1
如果您想估算,只需估算(简单线性回归),然后取 ...ë [ ÿ | X ] = β 0 + γ X β 1 = E[Y|X]=β0+β12XE[Y|X]=β0+γXβ1=γ
蒂姆

@Tim,感谢您的评论。我意识到这种转变是可能的,但是我试图提出一个稍微不同的问题。我已对问题进行了实质性编辑,希望会更好。
user1849779 2015年

Answers:


5

我可以看到两个主要区别:

  • 线性使它变得简单而强大。例如,(线性)OLS是未知干扰分布下的无偏估计量。通常,GLM和非线性模型不是。OLS对于各种错误结构模型(随机效应,聚类等)也很健壮,其中在非线性模型中,您通常必须假定这些项的确切分布。

  • 解决起来很容易:只需几个矩阵乘法+ 1逆。这意味着即使在目标函数几乎是平坦的情况下(多重共线性),您也几乎可以解决它。如今已不是一个大问题。计算机变得更快,但是数据变得更大。曾经尝试对1G观测值进行logit回归吗?

除此之外,线性模型更易于解释。在线性模型中,边际效应等于系数,并且与X值无关(尽管多项式项使这种简单性大打折扣)。


我的区别主要是方便或历史用法之一。
Martha 2015年

2

生物学(和其他领域)中的许多模型都是非线性的,因此最适合非线性回归。当然,数学是非常不同的。但是从数据分析师的角度来看,确实只有一个重要区别。

非线性回归需要每个参数的初始估计值。如果这些初始估计值相差甚远,则非线性回归程序可能会收敛到错误的最小值,并给出无用或误导性的结果。


2
这当然是答案的一部分。但是,通过争辩唯一的区别只是技术上的不足,您可能过度地减少了非线性模型的问题。例如,生物学中出现的一些简单的局部极小值可能会截然不同,所有局部极小值都接近于全局极小值。改进的计算能力或更好的优化技术无法解决这个基本的定性问题:许多非线性模型的本质与线性模型有很大不同,以至于它们需要深刻理解其含义和解释。
ub

1

首先,我将用“模型”一词代替“回归”一词。我认为对于这两个词,实际上是在问定义模型的相关方程是什么,以及将因变量的值与方程/模型预测的值相关的相关假设是什么。我认为“模型”一词更为标准。如果您同意,请继续阅读。

我非常感谢这个回答,这是对一位受过经典训练的概率论和统计学家的同事的评论的反思。他强烈反对一本将多项式回归称为非线性的书,也就是当我更认真地阅读非线性模型时。我相信正确的答案是线性模型假定误差项是高斯,而广义线性模型假定误差项的形式更广义。如果是任意一组函数,则可以尝试在构建线性模型。例如,如果,则得到多项式回归。如果差是线性模型φ 1... φ Ñ φ = X ε = ÿ - Σ 一个Ĵ X Ĵϕ1,,ϕnϕ1,,ϕnϕi=xiϵi=yiaijxj是高斯。恕我直言,我认为维基百科对一般线性模型有一个非常合理的解释。我认为这是关键的一句话-“ GLM通过允许线性模型通过链接函数与响应变量相关联,并使每次测量的方差幅度与其预测值有关,从而对线性回归进行了概括。 ” 因此,glm允许使用更笼统的错误术语。这允许在建模中更大的灵活性。价格 ?计算正确的模型比较困难。人们不再拥有一种简单的计算系数的方法。线性回归的系数可以通过最小化具有唯一最小值的二次函数来找到。用波拉特的话来说,只是一瞥而已。一个必须计算出最大似然


1
非线性模型还可以假设残差是从高斯分布中采样的。一个简单的例子是酶活性(Y)作为底物浓度(X)的函数。Y = Vmax * X /(Km + X)假定残差为高斯是很常见且明智的做法,但这是一个适合非线性回归的非线性方程。
哈维·莫图尔斯基

2
非线性模型比GLM包含更多的内容。GLM之所以受欢迎,是因为它们在参数上“几乎”是线性的:所有非线性都限于单个变量(“链接”)的函数。这允许相对有效,可靠的解决方案。其他非线性模型则很难处理。线性的概念在很大程度上与残差的性质分开,尽管在某些情况下将加法残差与其他形式的变化区分开是有益的。
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.