线性回归过时了吗?[关闭]


12

我目前正在参加线性回归课程,但我无法撼动自己的感觉,即我正在学习的内容不再与现代统计学或机器学习相关。当如今有这么多有趣的数据集经常违反线性回归的许多不切实际的假设时,为什么要花那么多时间进行简单或多元线性回归的推理?为什么不代之以关于更灵活,更现代的工具(如使用支持向量机或高斯过程进行回归)的推理呢?尽管比在空间中找到一架超飞机要复杂得多,但这不会为学生提供更好的背景来解决现代问题吗?


10
螺丝刀会使锤子过时吗?还是每个人执行不同的任务?
Sycorax说恢复莫妮卡

6
我有一个多功能工具,可以用作刀,锯,几个不同的螺丝起子,一对钳子,可能还有其他一些功能,但是当我需要这些工具中的任何一个时,这是我所能达到的。它仅在紧要关头有用,永远不是“最佳工作工具”。
达伦(Darren)

7
现实生活中人们面临的许多情况都涉及非常小的数据集和高噪声。在许多情况下,更复杂的模型是不可行的,而至少在很短的时间内线性线性模型至少成立了。尽管大型数据集(及其相关问题)将在继续进行的总数据分析中继续增长,但非常小的数据集以及它们所依赖的相对简单的分析将永远不会消失。此外,更复杂的工具直接建立在简单工具之上,不仅在历史上,而且在概念上。
Glen_b-恢复莫妮卡

6
除了许多可以继续实际使用线性回归的情况之外,还需要指出的是,它是学习各种更复杂的加性模型的基础。在这方面,这个问题有点像问微积分是否使算术过时。
Jacob Socolar

1
@Aksakal请详细说明。在贝叶斯优化中如何使用?
马克·L·斯通

Answers:


24

线性回归的假设是不现实的。但是,所有统计模型都是如此。“所有模型都是错误的,但有些是有用的。”

我想您的印象是,可以使用更复杂的模型时,没有理由使用线性回归。这是不正确的,因为通常来说,更复杂的模型更容易过度拟合,并且它们使用更多的计算资源,这在例如尝试在嵌入式处理器或Web服务器上进行统计时非常重要。更简单的模型也更易于理解和解释。相反,复杂的机器学习模型(例如神经网络)往往或多或少地成为黑匣子。

即使有一天线性回归不再实用(在可预见的将来这似乎极不可能),它在理论上仍然很重要,因为更复杂的模型倾向于以线性回归为基础。例如,为了了解正则化混合效应逻辑回归,您需要首先了解简单的旧线性回归。

这并不是说更复杂,更新和更新的模型没有用或不重要。他们很多。但是,较简单的模型具有更广泛的应用范围,因此也就越重要。如果要展示各种模型,那么首先展示是很有意义的。如今,许多自称为“数据科学家”之类的人进行了不良数据分析,但他们甚至不了解基础知识,例如置信区间的真正含义。不要成为统计数据!


您能否阐明“复杂模型”的含义?OP的意思相同吗?
Hatshepsut

1
@Hatshepsut几乎所有不只是线性回归或其特例的事物。OP以SVM和高斯过程模型为例。我提到了混合模型,逻辑回归和惩罚回归。其他一些例子是决策树,神经网络,MARS,贝叶斯层次模型和结构方程模型。如果您要问我们如何决定一个模型是否比另一个模型更复杂,或者什么才算是一个模型,那么这些本身就是交叉验证的问题。
Kodiologist

“过度拟合”;例如使用九阶多项式来拟合某些东西,这些东西原来是指数的加权和。拟合得非常好,该图再现了刚好高于噪声水平的仪器误差。我仍然想知道,实际上使用该多项式是否会更好。
约书亚

7

线性回归通常不会过时。仍然有人在研究与LASSO相关的方法,以及它们与多种测试的关系,例如-您可以在Emmanuel Candes和Malgorzata Bogdan中进行搜索。

如果您特别是在询问OLS算法,那么为什么他们教这种方法的答案是该方法是如此简单以至于具有封闭形式的解决方案。而且,它仅比ridge回归或带有套索/ elasticnet的版本简单。您可以在解决方案上建立直觉/证明,以进行简单的线性回归,然后通过附加约束来丰富模型。


3

我认为回归并不古老,对于数据科学家当前面临的一些问题,回归可能被认为是微不足道的,但仍然是统计分析的基础知识。如果您不知道最简单的模型如何工作,应该如何理解SVM是否正常工作?使用如此简单的工具可以教您如何在进入疯狂的复杂模型之前先查看数据,并深入了解哪些工具可以用于进一步的分析,哪些不能。与我的一位教授和一位同事进行对话后,她告诉我她的学生在运用复杂模型方面很擅长,但他们不了解什么是杠杆作用,或者无法阅读简单的qq图来了解数据出了什么问题。通常,在最简单易读的模型中可以看到美丽。


3

简短的答案是否定的。例如,如果您尝试使用MNIST数据进行线性模型化,则仍可获得约90%的精度!

一个长的答案是“取决于域”,但是线性模型被广泛使用。

  • 在某些领域,例如医学研究,获得一个数据点非常昂贵。而且分析工作仍与许多年前相似:线性回归仍然起着非常重要的作用。

  • 在现代机器学习中,例如文本分类,线性模型仍然非常重要,尽管还有其他更高级的模型。这是因为线性模型非常“稳定”,因此不太可能过度拟合数据。

最后,线性模型实际上是大多数其他模型的基础。良好的学习将使您将来受益。


2

实际上,即使您还在工作中使用更复杂的模型,线性回归也很有用。关键是线性回归易于理解,因此易于从概念上理解更复杂模型中的情况。

我可以根据我作为统计分析师的实际工作为您提供一个实际的应用示例。如果您发现自己是在无人监管的情况下拥有庞大的数据集,而老板要求您对此进行一些分析,那么您从哪里开始呢?好吧,如果您不熟悉数据集,并且对各种功能之间的相互关系不太了解,那么像您建议的功能那样的复杂模型就不是开始研究的好地方。

相反,最好的起点是简单的旧线性回归。执行回归分析,查看系数并绘制残差图。一旦开始查看数据的运行状况,您就可以决定要应用哪些高级方法。

我断言,如果您只是将数据插入到sklearn.svm这样的高级模型黑匣子中(如果您使用的是Python),那么您对结果将有意义的信心就非常低。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.