为什么要研究线性回归?


13

给定两个随机变量和我们可以计算它们的“相关系数”,并在这两个随机变量之间形成最佳拟合线。我的问题是为什么?η Çξηc

1)有随机变量和以最坏的方式依赖,即且尽管。如果只考虑线性回归,那么人们将完全不知道这一点。η ξ = ˚F η C ^ = 0ξηξ=f(η)c=0

2)为什么要线性?随机变量之间还可以存在其他类型的关系。为什么要从其他所有人中选出那个?


18
这有点像问为什么有时会碰到指甲时为什么要拥有螺丝起子。
Sycorax说恢复莫妮卡

6
您似乎还以为前提是,那里的人关心线性回归:“如果考虑线性回归”,“为什么要从其他所有事物中选出一个”。在我看来,这似乎是个稻草人,但是固守一个而且只有一个工具或观点是荒谬的。
马修·德鲁里

7
线性“特定地”实际上更多地是关于基函数的线性组合,而基函数实际上是相当通用的。
GeoMatt22 '16

2
@MatthewDrury没有稻草人,我什么也没假设,我只是用病理极端的思维方式来说明该方法的一个弱点来提出一个问题。你为什么以我为前提?对于统计学家而言,回归是一个非常大的话题。我不明白它有什么特别之处,以至于研究了很多。
Nicolas Bourbaki

8
对于那些坚决反对这个问题的人:我认为当您第一次了解线性回归并被告知“其中一个假设是线性效应”时,您已经忘记了。您对自己说:“但是效果永远不是线性的!”。经过很多考虑,您很有可能说服自己,尽管如此,线性回归仍然是可以理解和使用的基本工具。现在,在完成思考之前,将自己重置为返回。我认为这是一个很大的问题,每个统计专业的学生都应该花很多时间考虑。
悬崖AB

Answers:


10

我同意并非所有关系本身都是线性的,但是很多关系可以线性近似。我们已经在数学中看到过许多这样的情况,例如泰勒级数或傅立叶级数等。这里的要点是,geomatt22在评论中说,您通常可以对非线性数据进行变换,并应用具有基函数的某种变换并将其线性化。关系。大学之所以只考虑“多个线性回归模型”(包括简单回归模型),是因为它们是更高水平的线性模型的基础。

从数学上讲,只要您可以证明某个线性逼近在希尔伯特空间中是密集的,那么您就可以使用该逼近来表示该空间中的一个函数。


2
究竟。没有人提到它,但是正如这个答案所说,通常,您总是可以对变量应用转换以线性化关系。此外:a)容易找到线性回归的全局最大值,并且b)如果您知道基于线性回归的逻辑回归,则其他许多模型(包括神经网络)更容易理解。
里卡多·克鲁兹

7

您所指的模型,简单的线性回归,又名“最佳拟合线”(我在这里混淆模型和估计方法),很简单(顾名思义)。为什么要学习?我可以看到很多原因。在下文中,我假设随机变量的概念至少已非正式地引入,因为您在问题中提到了随机变量。

  1. 教学法::当然,对您来说,显而易见的是,具有有限二阶矩的实值随机变量形成了希尔伯特空间。当您第一次学习概率论时,也许已经很明显了。但是统计学不仅是教给数学专业的学生:从物理学到经济学,计算机科学,社会科学等等,都有更广泛的公众。这些学生在学习的早期可能会遇到统计学。他们可能已经或可能尚未接触线性代数,甚至在第一种情况下,他们可能还没有从数学课程的更抽象的角度看过它。对于这些学生来说,用另一个随机变量近似一个随机变量的概念并不是那么直接。甚至是简单线性模型的基本属性,即误差和预测变量都是正交随机变量的事实,有时令他们感到惊讶。您可以在随机变量(“讨厌的”对象!从概率空间到可测量空间的可测量函数)之间定义一个“角度”,这一事实对您来说可能是显而易见的,但不一定对新生而言。因此,如果向量空间的研究始于良好的欧几里德平面,那么从最简单的模型开始研究统计模型是否有意义?
  2. 程序:通过简单的线性回归,您可以介绍参数估计的概念,从而介绍最简单情况下的最小二乘法,标准误差等。如果您认为这是微不足道的,请记住,很多在工作/研究中使用统计信息但不是统计学家的专业人员对频繁主义者的置信区间深感困惑!无论如何,一旦涵盖了最简单的情况,您就可以进行多元线性回归。一旦掌握了这一点,那么所有线性模型都可用于估计。换句话说,如果我可以拟合模型(通过OLS或需要进行正则化的LARS,等等),那么我可以适合所有类型的模型ξ = Σ Ñ = 0 β φ η + εξ=β0+i=1Nβiηi+ϵξ=i=0Nβiϕ(ηi)+ϵ。这是一类非常强大的模型,如@DaeyoungLim所述,如果您具有无限的基本函数集,并且它们生成在Hilbert空间中密集的向量子空间,则可以近似Hilbert空间中的所有函数。 。
  3. 实用:简单线性回归有许多成功的应用。经济学的奥肯定律胡克定律欧姆定律查尔斯定律,血液收缩压与医学年龄之间的关系(我不知道它的名字!)都是简单线性回归的示例,不同程度的线性回归准确性。

5

另一个原因是回归方法对ANOVA等技术进行了统一的处理,这是一种可爱的方式。在我看来,ANOVA的常规“基本”处理方法相当晦涩,但是基于回归的处理方法却非常清晰。我怀疑这与回归模型做出一些假设的方式有关,这些假设假设“基本”治疗是默认的且未经检查。此外,当需要在统计软件中实现方法时,这种统一的观点所提供的概念上的清晰性会带来类似的实际好处。

该原理不仅适用于方差分析(ANOVA),而且适用于诸如受限制的三次样条曲线的扩展,这些扩展尤其解决了您的第二个问题。


3

线性回归之所以受欢迎,部分原因在于它的可解释性-也就是说,非技术人员只需一点点说明就可以理解参数系数。这在商业情况下增加了很多价值,在商业情况下,输出或预测的最终用户可能对数学/统计数据没有深刻的了解。

是的,这种技术存在假设和局限性(与所有方法一样),并且在许多情况下可能无法提供最佳的拟合度。但是线性回归非常健壮,即使违反假设也可以经常表现良好。

由于这些原因,绝对值得研究。


-2

可能没有直接关系。

如果您有两个和序列,则,并且如果怀疑和之间存在关系。您可以在和之间绘制图以检查它们之间的关系。y c o v x y = 0 x y y xxycov(x,y)=0xyyx

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.