我目前正在参加线性回归课程,但我无法撼动自己的感觉,即我正在学习的内容不再与现代统计学或机器学习相关。当如今有这么多有趣的数据集经常违反线性回归的许多不切实际的假设时,为什么要花那么多时间进行简单或多元线性回归的推理?为什么不代之以关于更灵活,更现代的工具(如使用支持向量机或高斯过程进行回归)的推理呢?尽管比在空间中找到一架超飞机要复杂得多,但这不会为学生提供更好的背景来解决现代问题吗?
我目前正在参加线性回归课程,但我无法撼动自己的感觉,即我正在学习的内容不再与现代统计学或机器学习相关。当如今有这么多有趣的数据集经常违反线性回归的许多不切实际的假设时,为什么要花那么多时间进行简单或多元线性回归的推理?为什么不代之以关于更灵活,更现代的工具(如使用支持向量机或高斯过程进行回归)的推理呢?尽管比在空间中找到一架超飞机要复杂得多,但这不会为学生提供更好的背景来解决现代问题吗?
Answers:
线性回归的假设是不现实的。但是,所有统计模型都是如此。“所有模型都是错误的,但有些是有用的。”
我想您的印象是,可以使用更复杂的模型时,没有理由使用线性回归。这是不正确的,因为通常来说,更复杂的模型更容易过度拟合,并且它们使用更多的计算资源,这在例如尝试在嵌入式处理器或Web服务器上进行统计时非常重要。更简单的模型也更易于理解和解释。相反,复杂的机器学习模型(例如神经网络)往往或多或少地成为黑匣子。
即使有一天线性回归不再实用(在可预见的将来这似乎极不可能),它在理论上仍然很重要,因为更复杂的模型倾向于以线性回归为基础。例如,为了了解正则化混合效应逻辑回归,您需要首先了解简单的旧线性回归。
这并不是说更复杂,更新和更新的模型没有用或不重要。他们很多。但是,较简单的模型具有更广泛的应用范围,因此也就越重要。如果要展示各种模型,那么首先展示是很有意义的。如今,许多自称为“数据科学家”之类的人进行了不良数据分析,但他们甚至不了解基础知识,例如置信区间的真正含义。不要成为统计数据!
线性回归通常不会过时。仍然有人在研究与LASSO相关的方法,以及它们与多种测试的关系,例如-您可以在Emmanuel Candes和Malgorzata Bogdan中进行搜索。
如果您特别是在询问OLS算法,那么为什么他们教这种方法的答案是该方法是如此简单以至于具有封闭形式的解决方案。而且,它仅比ridge回归或带有套索/ elasticnet的版本简单。您可以在解决方案上建立直觉/证明,以进行简单的线性回归,然后通过附加约束来丰富模型。
实际上,即使您还在工作中使用更复杂的模型,线性回归也很有用。关键是线性回归易于理解,因此易于从概念上理解更复杂模型中的情况。
我可以根据我作为统计分析师的实际工作为您提供一个实际的应用示例。如果您发现自己是在无人监管的情况下拥有庞大的数据集,而老板要求您对此进行一些分析,那么您从哪里开始呢?好吧,如果您不熟悉数据集,并且对各种功能之间的相互关系不太了解,那么像您建议的功能那样的复杂模型就不是开始研究的好地方。
相反,最好的起点是简单的旧线性回归。执行回归分析,查看系数并绘制残差图。一旦开始查看数据的运行状况,您就可以决定要应用哪些高级方法。
我断言,如果您只是将数据插入到sklearn.svm这样的高级模型黑匣子中(如果您使用的是Python),那么您对结果将有意义的信心就非常低。