在进行PCA之前,为什么要除以标准偏差而不是其他一些标准化因子?


17

我在阅读以下理由(来自cs229课程注释),说明为什么我们将原始数据除以其标准偏差:

在此处输入图片说明

即使我理解解释的意思,但我仍不清楚为什么除以标准偏差才能实现这一目标。它说的是,每个人都处于相同的“规模”。但是,尚不完全清楚为什么除以标准偏差才能达到目标。例如,除以方差有什么问题?为什么不另加一些呢?像...绝对值的总和?或其他一些规范...选择性病是否有数学依据?

本声明中的主张是可以通过数学(和/或统计)得出/证明的理论陈述,还是因为它似乎在“实践”中起作用而做的其中一项陈述?

基本上,可以提供一种关于为什么直觉是正确的严格数学解释吗?还是仅凭经验观察,为什么我们认为在进行PCA之前总体上可行?

另外,在PCA中,这是标准化还是标准化的过程?


我的其他一些想法可能会“解释”性病的原因:

由于可以通过最大化方差来得出PCA,因此我猜测除以相关数量(例如STD)可能是我们除以STD的原因之一。但后来我认为,如果我们将其他任何规范定义为“方差”,,那么我们将用该标准的STD除以(取pth根或某物)。虽然,这只是一个猜测,我对此不是100%,因此是个问题。我想知道是否有人对此有任何了解。1ni=1n(xiμ)p


我确实看到可能存在一个相关的问题:

PCA是相关性还是协方差?

但是似乎更多地讨论了何时使用“相关”或“协方差”,但缺乏严格,令人信服或详尽的理由,这是我主要感兴趣的。

同样适用于:

为什么我们需要在分析之前对数据进行标准化

有关:

SVD / PCA的“规范化”变量


1
从数学上讲是有原因的-将每个变量的(中心)数据除以SD会产生一个转换后的数据集,其协方差矩阵只是原始(中心)数据的相关矩阵。在那之后,我们再次处于相关与协方差矩阵的领域。您是否在寻找数据标准化的证明,将协方差矩阵变成相关矩阵?
银鱼

您的标题问题看起来像是在问进行标准化的目的(而不是不进行标准化)。这将是“关于相关性或协方差的PCA”的副本。但是,您实际上要问的是为什么要通过除以STD(而不是除以方差或范围等)来进行归一化。如果是这样,您是否可能要进行编辑以使标题问题更加精确?
变形虫说莫妮卡(Reonica)Monica

3
关于术语,“规范化”不是一个精确的术语,可以指代各种事物。而“标准化”是指减去均值并除以标准差,这就是您所指的内容。
变形虫说莫妮卡(Reonica Monica)

2
我还要补充一点,我认为您的问题很好(+1)。的确可以通过除以其他东西来归一化。例如,标准偏差是非常不鲁棒的度量,在存在异常值时可能会产生误导。因此,人们可以选择用某种可靠的扩展度量进行划分(例如,参见“中位数绝对偏差”)。没有“严格的数学解释”可以说明为什么使用STD是标准化的最佳方法,并且您肯定会经常使用STD,这只是“凭经验观察”。
变形虫说恢复莫妮卡

2
关于“为什么不用方差代替”-可以很容易地用尺寸不一致来解释。例如,如果您更改变量之一所在的单位,它将给您带来奇怪的结果。再问“为什么不除以MAD”-如果数据是正态分布的,则由于(在总体中)MAD与SD成正比,因此有可能除以MAD 的适当倍数并得到(效率低下但可能可靠)? )的相关性估算。那更有趣。
银鱼

Answers:


11

这部分是对“我不清楚为什么除以标准偏差会达到这样的目标”的部分回答。特别是为什么将转换后的(标准化)数据置于“相同规模”。这个问题提示了更深层次的问题(从数学上讲,还有哪些可能“起作用”,这与“起作用”甚至意味着什么?),但似乎至少应该解决为什么该过程“起作用”的更直接方面。 -也就是说,实现了本文所要求的权利。

协方差矩阵的第行和第j列上的条目是i t hj t h变量之间的协方差。请注意,在对角,行和列ijithjthii,这成为之间的协方差变量和本身-这是刚方差ħithith变量。

让我们叫变量X ij t h变量X j;我假设它们已经居中,所以它们的均值为零。回想一下,Ç Ò v X X Ĵ= σ X ithXijthXj

Cov(Xi,Xj)=σXiσXjCor(Xi,Xj)

我们可以将变量标准化,以使其具有方差1,只需将其除以标准偏差即可。标准化时,我们通常会先减去均值,但我已经假设它们居中,因​​此可以跳过该步骤。设,看看为什么方差是一个,注意Zi=XiσXi

Var(Zi)=Var(XiσXi)=1σXi2Var(Xi)=1σXi2σXi2=1

对于同样Zjij

Cov(Zi,Zj)=σZiσZjCor(Zi,Zj)=Cor(Zi,Zj)

Cor(Zi,Zj)Cor(Xi,Xj) 即原始数据之间的相关性。

Cov(Zi,Zi)=Var(Zi)=1因此,正如我们所期望的,整个对角线都充满了对角线。从这种意义上说,数据现在“处于相同规模”-它们的边际分布应该看起来非常相似,至少如果它们以正态平均零和方差(和标准差)为1的开始大致呈正态分布。一个变量的可变性淹没其他变量的情况已不再是这种情况。当然,您可能会用不同的价差进行划分。由于尺寸不一致,方差将是一个特别糟糕的选择(考虑一下,如果您更改了变量之一所在的单位,例如从米到公里,将会发生什么情况)。诸如中位数绝对偏差(或MAD的适当倍数)之类的值如果您尝试将其用作标准偏差的可靠估计器,则可能更合适。但是它仍然不会将对角线变成对角线。

结果是 一种在标准化数据的协方差矩阵上工作的方法实质上是使用原始数据的相关矩阵。您想在PCA上使用哪种方法,请参阅有关相关性或协方差的PCA?


2
我认为这个答案并没有真正涉及到实际的(也是不平凡的)问题,即标准差为何被用作对价差的度量并用于归一化。为什么不采用中位数绝对偏差呢?当然,所得的协方差矩阵将不是“默认”相关矩阵,但可能会更好,例如,对相关矩阵进行更可靠的估计。另请参阅我对OP的最后评论。
变形虫说莫妮卡(

2
@ameoba在“中等深度”点上,从新的协方差矩阵的对角线下来得到一个方差的事实,实质上就是从PCA角度使转换后的数据具有“相同比例”的变量。关于这个问题引起的“非常深刻”的问题,我不确定问“为什么我们要使用方差作为PCA中规模的度量标准?”之间有很大的区别?并问“为什么PCA与(协)方差有关?” -或者至少,这两个问题密切相关。
银鱼

1
@amoeba,从根本上说,为什么不除以MAD或除以方差而不是用SD除,本质上是一个与为什么要进行微分缩放相同的问题:也就是说,为什么不对协方差进行PCA?我在前面的评论中支持这个想法。
ttnphns 2015年

1
@ttnphns:如果不同的变量的刻度(温度,长度,重量等)完全不可比,那么以某种方式标准化变量的愿望是可以理解的。这是使用相关矩阵而不是协方差矩阵的常见论点。但是,如果有人担心离群值,那么我减去中位数而不是均值并除以MAD而不是SVD并没有错。
变形虫说恢复莫妮卡

1
@amoeba,线性PCA需要该矩阵为SSCP类型的矩阵。原始变量的任何线性变换都将保留此类型。当然,您也可以进行任何非线性变换(例如,进行排序以获取Spearman rho矩阵),但是随后组件分数和负载会松散它们与数据的直接联系(就最小二乘最小而言):现在代表转换后的数据!
ttnphns 2015年

5

为什么用标准差
除以除以方差有什么问题?

正如@Silverfish在评论中已经指出的那样,标准偏差的单位与测量的单位相同。因此,除以标准差(而不是方差),最终得到一个无格式数字,该数字告诉您案例相对于平均值和以均值和标准差衡量的价差。这非常接近ž值和标准正态分布:如果数据是正态分布,则标准化会将它们转换为标准正态分布。

因此:如果您认为标准正态分布对您的数据敏感,那么标准化(平均居中+按标准偏差缩放)就很有意义。

为什么不另加一些呢?像...绝对值的总和?或其他一些规范...

其他数量用于缩放数据,但是只有在使用平均居中和除以标准偏差的情况下,该过程才称为标准化。缩放是通用术语。

例如,我使用光谱数据,并且知道我的探测器具有与波长有关的灵敏度和(电子)偏置。这样我就可以校准通过减去偏移量(空白)信号,并通过一个校准因子相乘(分割)。

另外,我可能不是以平均值为中心,而是以其他一些基线值为中心,例如对照组的平均值而不是总体平均值。(个人而言,我几乎从未标准化过,因为我的变量已经具有相同的物理单位并且处于相同的数量级)

另请参阅:在创建模型之前,经常对变量进行调整(例如标准化)-这什么时候好,什么时候不好?


+1。光谱数据很好的例子。顺便说一句,恭喜您达到了10k rep!
变形虫说恢复莫妮卡

0

我想这个链接可以清楚地回答您的问题: http //sebastianraschka.com/Articles/2014_about_feature_scaling.html

我引用一小段:

Z分数标准化还是最小最大缩放?

“标准化还是最小-最大缩放?”-这个问题没有明显的答案:它实际上取决于应用程序。

例如,在聚类分析中,标准化可能尤其重要,以便比较基于某些距离量度的要素之间的相似性。另一个突出的例子是主成分分析,在这种情况下,我们通常更喜欢标准化而不是最小-最大缩放,因为我们对最大化方差的成分感兴趣(取决于问题以及PCA是否通过相关矩阵而不是通过相关矩阵计算成分)。协方差矩阵;但在我之前的文章中有更多关于PCA的信息。

但是,这并不意味着Min-Max缩放根本没有用!一种流行的应用是图像处理,其中必须将像素强度标准化以适合某个范围(即RGB颜色范围为0到255)。同样,典型的神经网络算法需要0-1尺度的数据。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.