如何选择使用线性回归模型还是非线性回归模型?
我的目标是预测Y。
在简单的和数据集的情况下,我可以通过绘制散点图轻松确定应使用哪种回归模型。
在像和这样的多变量的情况下。如何确定必须使用哪种回归模型?也就是说,我将如何决定使用简单的线性模型还是非线性模型(例如二次,三次等)。
是否有任何技术或统计方法或图形绘制来推断和决定必须使用哪种回归模型?
如何选择使用线性回归模型还是非线性回归模型?
我的目标是预测Y。
在简单的和数据集的情况下,我可以通过绘制散点图轻松确定应使用哪种回归模型。
在像和这样的多变量的情况下。如何确定必须使用哪种回归模型?也就是说,我将如何决定使用简单的线性模型还是非线性模型(例如二次,三次等)。
是否有任何技术或统计方法或图形绘制来推断和决定必须使用哪种回归模型?
Answers:
这是统计领域,称为模型选择。在这一领域进行了大量研究,没有明确,简单的答案。
假设您有和并且想知道是否应在模型中包含项。在这种情况下,您的更简约的模型嵌套在您更复杂的模型中。换句话说,变量和 (简约模型)是变量和(复杂模型)的子集。在模型构建中,您(至少)具有以下两个主要目标之一:
如果您的目标是第一,那么我建议您进行似然比测试(LRT)。当您具有嵌套模型并且您想知道“数据是否比来自简约模型的数据更可能来自复杂模型?”时,将使用LRT。这将使您深入了解哪种模型可以更好地解释数据之间的关系。
如果您的目标是2,那么我建议根据数据的大小使用某种交叉验证(CV)技术(倍CV,留一法CV,测试培训CV)。总之,这些方法在您的数据子集上构建模型,并根据剩余数据预测结果。选择对剩余数据预测最出色的模型。
当我用Google搜索“线性回归模型或非线性模型”时,我会得到一些指向该书的链接:http : //www.graphpad.com/manuals/prism4/RegressionBook.pdf 这本书没有意思,我没有不信任100%(出于某些原因)。
我还发现了这篇文章:http : //hunch.net/?p=524,标题:几乎所有自然问题都需要非线性
我也找到了很好的解释类似的问题:https : //stackoverflow.com/questions/1148513/difference-between-a-linear-problem-and-a-non-linear-problem-essence-of-dot-pro
根据我的经验,当您不知道使用哪种模型时,请同时使用并尝试其他功能。
如您所言,线性模型通常比非线性模型更简单,这意味着它们运行速度更快(建立和预测),更易于解释和解释,并且通常在误差测量中非常简单。因此,目标是找出线性回归的假设是否与您的数据相符(如果您无法支持线性,则只需进行非线性分析即可)。通常,您将对所有变量单独重复单变量图,并保持所有其他变量不变。
不过,也许更重要的是,您想知道是否可以应用某种转换,变量交互或虚拟变量将数据移动到线性空间。如果您能够验证这些假设,或者您足够了解数据以应用动机良好或以其他方式智能告知的转换或修改,则您希望继续进行该转换并使用线性回归。一旦有了残差,就可以将它们与预测值或自变量作图,以进一步决定是否需要继续使用非线性方法。
在Duke上,线性回归的假设有一个很好的分解。列出了四个主要假设,每个假设都分为对模型的影响,如何在数据中诊断它以及“修复”(即变换或添加)数据以使该假设成立的潜在方法。这里是摘自顶部的一小段摘要,总结了所解决的四个假设,但是您应该去那里阅读分解。
有四个主要假设可证明出于推理或预测目的而使用线性回归模型是合理的:
(i)因变量和自变量之间关系的线性和可加性:
(a)因变量的期望值是每个独立变量的直线函数,而其他变量则保持不变。
(b)该线的斜率不取决于其他变量的值。
(c)不同自变量对因变量期望值的影响是累加的。
(ii)错误的统计独立性(特别是在时间序列数据的情况下>连续错误之间没有相关性)
(iii)错误的均方差(恒定方差)
(a)与时间(对于时间序列数据)
(b)与预测
(c)与任何自变量
(iv)误差分布的正态性。