我们为什么说结果变量“在”预测变量上“回归”?


16

该术语是否有一些直观的解释?为什么这样做,而不是将预测变量回归结果?

理想情况下,我希望对这种术语为何存在的正确解释能够帮助学生记住它,并阻止他们以错误的方式来讲。


1
我们要不要?我不确定我是否曾经说过-我已经讨论了很多回归。如果您知道确实有人说过话,也许您可​​以问他们。(我有一次说:“ 退步 ” -但会听起来有些奇怪了吧)
Glen_b -Reinstate莫妮卡

谢谢-我的意思是“上”而不是“上”。我已经解决了。
user1205901-恢复莫妮卡

Answers:


19

我不知道“回归”的词源是什么,但这是我说或听到此表达时要记住的解释。请参考Hastie等人的《统计学习的要素》中的下图:

回归就是预测

在其核心上,线性回归等于y在(到)上的正交投影X,其中y是因变量观测值的n维向量,而X是预测变量向量跨越的子空间。

这是线性回归的非常有用的解释。

由于被投影在X上,所以当我听到yX上“回归” 时,我就是这样想的。从这个角度来看,它将使不及义地说,X是退步ŸŸ使其回归“反对”或“与” XyXyXXyyX

理想情况下,我希望对这种术语为何存在的正确解释能够帮助学生记住它,并阻止他们以错误的方式来讲。

就像我说的那样,我怀疑这是为什么存在该术语的解释(也许仅仅是为什么它持续存在?),但我确信它可以帮助学生记住它。


2
+1。取决于学生!显然,这是在中级或高级水平上进行交谈和思考的一种有效而富有成果的方法。我是否想知道它是否负责术语“在...上”。不久之前,您可以找到几乎没有图表的回归文本,更不用说采用强烈的视觉或几何方法了,即使现在这已经完全成为标准,而我认为这种术语可以追溯到几十年前。
尼克·考克斯

(+1)我通过头骨获得回归的唯一方法是将其视为在模型矩阵的列空间C A 上的投影,我认为这是您所显示的几何解释。yC(A)
Antoni Parellada

1
这是使用该术语的一个很好的统计原因。流行的社会或语言原因可能有所不同!
尼克·考克斯

只是要清楚一点:我完全同意@NickCox在这里的评论中所说的。
变形虫说恢复莫妮卡

6

我经常使用和听到这种说话方式。我猜想,在预测变量之前提到结果或响应的序列是遵循书面约定,使用单词或符号或将两者混合在一起,一直到

Y=Xβ

抛开我们所谓的不同类型变量的同样有趣(或无趣!)的问题。

但是,从数学和统计学角度来说,首先提及预测变量似乎同样有效,就像许多数学家首先撰写带有自变量的映射或函数一样。

可能经常导致我们在统计讨论中使用的顺序的原因是,从科学或实践上,我们通常对我们要预测的内容有清晰的认识-是死亡率,收入,小麦收成,选举中的投票数或其他-尽管潜在的或实际的预测因素库可能不太清楚。即使很清楚,也要先提到重要的事情。你想做什么?预测什么。你打算怎么做?使用部分或全部这些变量

我没有关于“上”的故事,没有其他合适的词。我没有听到“反对”或“反对”的声音。这里可能没有逻辑,只是在教科书,教学和讨论中传递了模因。

一般来说,要当心。考虑一个相关的问题,即“对抗”的含义。我长大后说“ 对(或对)x [水平轴变量] 绘制 [垂直轴变量]”,相反的声音对我来说很奇怪。然而,具有丰富经验和专业知识的人却反过来。有时,这种差异可以追溯到自从您坐在脚下以来就一直模仿的超凡魅力和特质老师。yx


+1。但是我对“回归”的个人解释是通过“投影”,请参见我的回答。我想知道是否有很多人以这种方式考虑这种表达,或者仅仅是我一个人。
变形虫说恢复莫妮卡

3

1)术语回归来自以下事实:在通常的简单线性回归模型中:

y=α+βx+ϵ

yxy^y¯xx¯

|y^y¯|/sy<|xx¯|/sx

例如,如果我们使用R中内置的BOD数据帧,则:

fm <- lm(demand ~ Time, BOD)
with(BOD, all( abs(fitted(fm) - mean(demand)) / sd(demand) < abs(scale(Time))))
## [1] TRUE

有关证明,请参见:https : //en.wikipedia.org/wiki/Regression_toward_the_mean

2)术语来自一个事实,即拟合值是结果变量的投影由预测器变量(包括截距跨越的子空间)如在许多来源进一步解释如HTTP://people.eecs.ku .edu /〜jhuan / EECS940_S12 / slides / linearRegression.pdf

注意

关于下面的评论,评论者正在说的是答案已经在上面以公式形式陈述了,只是答案正确地陈述了。实际上,由于平等:

(y^y¯)=β^(xx¯)

|β|<1

beta>1


1
我很确定这不是术语回归的来源。在早期使用这个术语时,儿子的身高被降低为父亲的身高。由于均值回归,发现高个子父亲的儿子倾向于回归均值。
PaulB

尽管对于特定的数据集确实如此,但除非您根据标准偏差来衡量紧密度,否则通常情况并非如此,但这正是答案中的不平等现象所造成的,因此您可能根本就没有意识到。实际上,现代概念是基于我已经陈述的正确公式,而不是基于不涉及标准偏差的错误公式。我已经在答案的末尾添加了注释,对此进行了扩展。
G. Grothendieck

0

就个人而言,在解释术语时,我发现术语本身的定义总是有帮助的,尤其是在向学生解释时。单词regress的实际定义是:

“回到以前或欠发达的状态”。

因此,我想一种解释方式是:

“将结果视为完全发展的状态,我们尝试使用欠发达的状态(即独立变量)来解释结果。因此,结果在预测变量上回归。”

希望能有所帮助。


1
有一个以上的“实际定义”。我建议在统计科学中,回归的技术定义是拟合模型(默认情况下是线性模型)的技术定义,现在是主要的,而且具有历史意义。次要的 我认为认为预报器总体上是“欠发达状态”没有任何帮助,例如,预报器降雨是小麦单产不发达状态的感觉。无论哪种方式,我都看不出这是如何解释该表达的。
尼克·考克斯

我完全明白你的意思。您是否可以通过我发布的定义来解释回归?因为我认为“欠发达”的方式并不是从降雨的意义上说不如小麦的产量,而是更多地可以部分解释小麦的产量。
EhsanF '16

1
如果“欠发达”并不意味着欠发达,那我根本看不出措辞有什么帮助。
尼克·考克斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.