集中数据如何消除回归和PCA中的截距?


38

我不断阅读有关我们将数据居中的实例(例如,使用正则化或PCA)以消除拦截的信息(如本问题所述)。我知道这很简单,但是直觉上很难理解。有人可以提供我可以阅读的直觉或参考吗?


2
这是stats.stackexchange.com/questions/17336/…中(以多种方式解释)的“控制其他变量”的非常特殊的情况。被控制的“变量”是常数(截距)项。
ub

Answers:


63

这些图片可以帮忙吗?

前两张图片是关于回归的。使数据居中不会改变回归线的斜率,但会使截距等于0。

在此处输入图片说明

下图是有关PCA的。PCA是没有拦截的回归模型。因此,主要成分不可避免地通过原点。如果您忘记将数据居中,则第一个主成分可能会沿着云的主要方向刺穿云,并且(出于统计目的)会产生误导。1

在此处输入图片说明


1 PCA 当然不是回归分析。但是,它与线性回归在形式上共享相同的线性方程(线性组合)。PCA方程类似于没有截距的线性回归方程-因为PCA是旋转运算。


1
谢谢!后续问题:在回归的情况下,如果我为未知的x预测y,则意味着我必须预测重新添加截距,对吗?并且,截距等于吗?y¯X¯β
亚历克

15
PCA is maximizing variance通常情况并非如此。PCA(通过第一台PC)最大化与原点的平方和偏差。仅当数据初步居中时(居中本身不是PCA的一部分),才可以使方差最大化。
ttnphns

3
PS注意,协方差或相关性的计算意味着居中
ttnphns

1
> PS请注意,协方差或相关性的计算意味着居中– ttnphns '12 Aug 27'在11:47尽管我同意您的其他评论,但协方差和相关性均不意味着居中。当将加性常数应用于数据时,cor和covar均不会更改值。
TPM

1
这是倒退。可加常数确实不会影响相关性,但这是因为@ttphns指出,它们在计算中被减去了。除此之外,这不是一个新答案,而是一条评论。我们了解您还没有足够的声誉来发表评论,因此,我相信,在我对其进行举报之后,具有足够声誉的用户将对此予以感动。
Nick Cox 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.