在线性回归模型还是非线性回归模型之间进行选择


10

如何选择使用线性回归模型还是非线性回归模型?

我的目标是预测Y。

在简单的和数据集的情况下,我可以通过绘制散点图轻松确定应使用哪种回归模型。xy

在像和这样的多变量的情况下。如何确定必须使用哪种回归模型?也就是说,我将如何决定使用简单的线性模型还是非线性模型(例如二次,三次等)。x1,x2,...xny

是否有任何技术或统计方法或图形绘制来推断和决定必须使用哪种回归模型?


“非线性模型”是一个相当广泛的类别。你有一个想法吗?您的分析目标是什么?
shadowtalker,2015年

这取决于您的目标。您正在建立预测/预测模型吗?
阿克萨卡(Aksakal)

预测是我的目标。
shakthydoss 2015年

1
如果您追求的是“绘制数据”方法,但对于多个预测变量,则会添加可变的绘制,这些绘制可能具有一定的价值。但是,如果您的目标是预测,那么问题就在于您要根据看到的数据来选择要添加的内容,因此与其他数据相比,它在您拥有的数据上看起来要好得多(而且,模型选择方法)-要正确评估样本外的预测能力,您需要评估保留样本上的内容/考虑交叉验证之类的内容。
Glen_b-恢复莫妮卡

1
您可能会发现我前一段时间开始的相关讨论很有用。
Aleksandr Blekh

Answers:


10

这是统计领域,称为模型选择。在这一领域进行了大量研究,没有明确,简单的答案。

假设您有和并且想知道是否应在模型中包含项。在这种情况下,您的更简约的模型嵌套在您更复杂的模型中。换句话说,变量和 (简约模型)是变量和(复杂模型)的子集。在模型构建中,您(至少)具有以下两个主要目标之一:X1,X2X3X32X1,X2X3X1,X2,X3X32

  1. 解释数据:您试图了解某些变量集如何影响您的响应变量,或者您对如何影响并同时控制的影响X1YX2,...Xp
  2. 预测:您希望准确地预测,而不必关心模型中有多少变量YY

如果您的目标是第一,那么我建议您进行似然比测试(LRT)。当您具有嵌套模型并且您想知道“数据是否比来自简约模型的数据更可能来自复杂模型?”时,将使用LRT。这将使您深入了解哪种模型可以更好地解释数据之间的关系。

如果您的目标是2,那么我建议根据数据的大小使用某种交叉验证(CV)技术(倍CV,留一法CV,测试培训CV)。总之,这些方法在您的数据子集上构建模型,并根据剩余数据预测结果。选择对剩余数据预测最出色的模型。k


请,您能否更明确地说明/解释目标(1)和(2)之间的区别?目前没有太大的区别。
ttnphns 2015年

@ttnphns我添加了对这两个目标的简短描述。
TrynnaDoStat

@TrynnaDoStat只是在这里被语句弄糊涂了选择最能预测工作的模型。最好的模型是您要在线性(简约)模型和复杂模型之间选择。因为我所知道的是k倍,所以采用留一法CV来检查看不见的数据的模型性能。它们不用于模型选择。我在这里很困惑。
tushaR

1

当我用Google搜索“线性回归模型或非线性模型”时,我会得到一些指向该书的链接:http : //www.graphpad.com/manuals/prism4/RegressionBook.pdf 这本书没有意思,我没有不信任100%(出于某些原因)。

我还发现了这篇文章:http : //hunch.net/?p=524,标题:几乎所有自然问题都需要非线性

我也找到了很好的解释类似的问题:https : //stackoverflow.com/questions/1148513/difference-between-a-linear-problem-and-a-non-linear-problem-essence-of-dot-pro

根据我的经验,当您不知道使用哪种模型时,请同时使用并尝试其他功能。


0

如您所言,线性模型通常比非线性模型更简单,这意味着它们运行速度更快(建立和预测),更易于解释和解释,并且通常在误差测量中非常简单。因此,目标是找出线性回归的假设是否与您的数据相符(如果您无法支持线性,则只需进行非线性分析即可)。通常,您将对所有变量单独重复单变量图,并保持所有其他变量不变。

不过,也许更重要的是,您想知道是否可以应用某种转换,变量交互或虚拟变量将数据移动到线性空间。如果您能够验证这些假设,或者您足够了解数据以应用动机良好或以其他方式智能告知的转换或修改,则您希望继续进行该转换并使用线性回归。一旦有了残差,就可以将它们与预测值或自变量作图,以进一步决定是否需要继续使用非线性方法。

在Duke上,线性回归的假设有一个很好的分解。列出了四个主要假设,每个假设都分为对模型的影响,如何在数据中诊断它以及“修复”(即变换或添加)数据以使该假设成立的潜在方法。这里是摘自顶部的一小段摘要,总结了所解决的四个假设,但是您应该去那里阅读分解。

有四个主要假设可证明出于推理或预测目的而使用线性回归模型是合理的:

(i)因变量和自变量之间关系的线性和可加性:

(a)因变量的期望值是每个独立变量的直线函数,而其他变量则保持不变。

(b)该线的斜率不取决于其他变量的值。

(c)不同自变量对因变量期望值的影响是累加的。

(ii)错误的统计独立性(特别是在时间序列数据的情况下>连续错误之间没有相关性)

(iii)错误的均方差(恒定方差)

(a)与时间(对于时间序列数据)

(b)与预测

(c)与任何自变量

(iv)误差分布的正态性。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.