变量向量如何表示超平面?


12

我正在阅读《统计学习的要素》,在第12页(第2.3节)中,将线性模型表示为:

Y^=XTβ^

...其中是预测变量/自变量/输入的列向量的转置。(它前面指出“所有矢量都假定为列矢量”,所以这不是使成为行矢量,而成为列矢量吗?) X 牛逼βXTXTβ^

包含一个“ ”,将其与对应的系数相乘,得出(恒定)截距。1X1

它继续说:

在维输入-输出空间中,表示一个超平面。如果常量包含在,则超平面包括原点,并且是子空间;如果不是,则为仿射集,在点处切割轴 。X ÿX Ý 0 ^ β 0(p+1)(X, Y^)XY(0, β0^)

“ ”是否描述了由预测变量,截距的“ ”和串联而成的向量?为什么在中包含“ ”会迫使超平面通过原点,并确保将“ ”与相乘?1 Ÿ 1 X 1 ^ β 0(X, Y^)1Y^1X1β0^

我听不懂这本书。任何帮助/建议/资源链接将不胜感激。


4
首先考虑可能会有所帮助。在这种情况下,,其中为截距。这是经过的直线的方程式。立即扩展到更大的尺寸。Ÿ = β 0 + X β β 00 β 0p=1y^=β^0+xβ^β0(0,β^0)
ocram 2013年

如果@ocram的帮助还不够,请尝试写出向量并进行相乘。
彼得·弗洛姆

2
这是一个很好的图形演示:blog.stata.com/2011/03/03/…。表示法不同,A是您的X,x是。β^
Dimitriy V. Masterov

2
这本书错误的,或者至少是前后矛盾的。显然,有变量包括常数。因此,集合确实是超平面,但是说常数“包含在 ” 是不正确的。相反,我认为这本书的意思是说常数包含在回归中,但仍不应视为一部分。因此,实际上应该将模型写为其中。设置立即给出有关截距的断言。{ X ÿ| X [R p } X X Ŷ = β 0 + X ' β β = β 1β 2... β p ' X = 0p{(X,Y^)|XRp}XXY^=β^0+Xβ^β=(β1,β2,,βp)X=0
whuber

1
(如果改为在包含常量,则我们不能让在整个自由变化:它被约束为位于维子空间内。图维数至少为,因此实际上不是“超平面”。)X - [R p p - 1 { X ÿ} 2XXRpp1{(X,Y^)}2
胡伯

Answers:


4

令为观察数,为解释变量数。NK

ñX实际上是矩阵。仅当我们查看单个观测值时,我们通常将每个观测值表示为一个特定观测值标量的解释变量的行向量乘以列向量。此外,是列向量,其中包含所有观察值。N×KxiTK×1βYN×1Yn

现在,二维超平面将跨越向量和一个(!)列向量。请记住,是一个矩阵,因此每个解释变量均由矩阵一个列向量表示。如果我们只有一个解释变量,没有截距和,则所有数据点都位于由和跨越的二维平面上。YXXN×KXYYX

对于多元回归,和矩阵之间的超平面总共有多少维?答案:由于具有解释变量的列向量,因此必须具有维超平面。YXKXK+1

通常,在矩阵设置中,回归需要恒定的截距,以便合理地分析斜率系数。为了适应这一技巧,我们强制矩阵一列仅由“ s”组成。在这种情况下,估算器单独乘以每个观察值的常数,而不是随机的解释变量。因此,给定固定为值1且所有其他变量均为零,系数表示的期望值。因此,将维超平面缩小一维,成为维子空间,并且X1β1β1Yx1iK+1Kβ1对应于此维平面的“截距” 。K

在矩阵设置中,始终建议您看一下二维的简单情况,以查看是否可以为我们的结果找到直觉。在这里,最简单的方法是考虑具有两个解释变量的简单回归: 或用矩阵代数表示:其中是a矩阵。

yi=β1x1i+β2x2i+ui
Y=Xβ+uXN×2

<Y,X>跨越3维超平面。

现在,如果我们将所有都设为,我们将得到: ,这是我们通常的简单回归,可以用二维图表示。请注意,现在简化为二维线-原始3维超平面的子集。系数对应于处的线截距。x11

yi=β1i+β2x2i+ui
X, Y<Y,X>β1x2i=0

可以进一步显示,当包含常量时,它还会通过。如果我们不考虑常数,那么回归超平面将总是微不足道地通过 -毫无疑问。这可以推广到多个维度,如稍后在推导时将看到的: 由于具有每个定义的最高等级,因此,因此如果我们忽略截距,则回归将通过原点。<0,β1><0,0>βX ý - X β = 0

(XX)β=Xy(XX)βXy=0X(yXβ)=0.
XyXβ=0

编辑:我刚刚意识到,对于您的第二个问题,这与您书面反对包含或排除常数是完全相反的。但是,我已经在这里设计了解决方案,并且如果我错了,我将予以纠正。

我知道回归的矩阵表示在开始时可能会很混乱,但最终在推导更复杂的代数时会大大简化。希望这个对你有帮助。


1

我认为思考的方法是重新排列该等式:

Y^XTβ^=0

使线性方程包含原点的唯一方法是使预测的等于截距。估计该值的方法是在回归模型中包括一个截距项。

Y^
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.