美白总是好吗?


27

机器学习算法的常见预处理步骤是数据白化。

进行白化似乎总是一件好事,因为它会使数据不相关,从而简化了建模。

什么时候不建议美白?

注意:我指的是数据的去相关。


1
你能给美白提供参考吗?
Atilla Ozgur 2012年

2
我认为该线程是一个存根。它确实应该扩展。--当前接受的答案的信息很少。--我不接受,在这里开赏金。
莱奥波德·赫兹(LéoLéopoldHertz)2016年

您的问题也存在偏见,因为那里“总是”存在。当然,美白并非总是很好。另外,定义美白类型。我认为这导致在这里没有那么建设性的答案。--定义要使用的数据类型。我想一个更好的问题是,如何在足够好的数据上改善这种美白的应用?。--@AtillaOzgur 如果考虑了美白的基本转换,则是一个来源en.wikipedia.org/wiki/Whitening_transformation
莱奥波尔德·赫兹(LéoLéopoldHertz),2016年

Answers:


13

预白化是特征归一化的概括,它通过针对转换后的输入协方差矩阵对其进行转换来使输入独立。我不明白为什么这可能是一件坏事。

但是,快速搜索显示了“数据白化以提高天气雷达性能的可行性”pdf),内容为:

特别是,在指数ACF的情况下(与摩纳科夫的结果相符),美白效果很好,但在高斯色的情况下效果不佳。经过数值实验,我们发现高斯情况在数值上是病态的,因为对于高斯协方差矩阵,条件数(最大特征值与最小特征值之比)非常大。

我的教育程度不足以对此发表评论。也许您的问题的答案是美白总是很好,但存在某些陷阱(例如,对于随机数据,如果通过高斯自相关函数完成,将无法正常工作)。


2
据我了解,如果协方差矩阵得到了很好的估计,它将很好地工作。有人可以对此发表评论吗?谢谢。
2012年

3
上面的引用不是指估计差的协方差矩阵(尽管这也有问题)。据说对于完美指定的协方差矩阵,仍然可能难以准确地执行所需的因式分解(以及相关的数据转换)。这是由于数字病态造成的,这意味着有限的精确舍入误差会污染计算。
GeoMatt22

2
这是不够的答案。它大多复制了不太相关的材料。--这个答案确实应该扩大。这是一个存根。
莱奥列奥波尔德赫兹준 영

20

首先,我认为去相关和白化是两个独立的过程。

为了使数据解相关,我们需要对其进行变换,以使变换后的数据具有对角协方差矩阵。通过解决特征值问题可以找到这种变换。通过求解,我们发现协方差矩阵的特征向量和相关特征值Σ=XX

ΣΦ=ΦΛ

其中是一个以特征值为对角元素的对角矩阵。Λ

因此,矩阵对角化的协方差矩阵。的列是协方差矩阵的特征向量。ΦXΦ

我们还可以将对角化协方差写为:

(1)ΦΣΦ=Λ

因此,单个向量,我们要做:xi

(2)xi=Φxi

的对角元素(特征值)可以相同或不同。如果我们使它们都相同,则称为数据白化。由于每个特征值都确定其关联特征向量的长度,因此当数据不被白化时,协方差将对应于一个椭圆;当数据被白化时,协方差将对应于一个球体(所有维度的长度相同或均匀)。美白步骤如下:Λ

Λ1/2ΛΛ1/2=I

等效地,用代替:(1)

Λ1/2ΦΣΦΛ1/2=I

因此,要将白化变换应用于我们只需将其乘以该比例因子,即可获得白化的数据点:xixi

(3)xi=Λ1/2xi=Λ1/2Φxi

现在的协方差不仅是对角,而且还统一(白色),因为协方差,。xixiE(xixi)=I

在此之后,我可以看到两种情况可能没有用的情况。首先是相当琐碎的,可能会发生数据示例的缩放在您正在研究的推理问题中以某种方式重要的情况。当然,您可以将特征值作为一组附加功能来解决此问题。第二个是计算问题:首先,您必须计算协方差矩阵,它可能太大而无法放入内存中(如果您有成千上万个特征)或计算时间太长;其次,特征值分解在实践中为O(n ^ 3),这同样非常恐怖,具有大量特征。Σ

最后,还有一个常见的“陷阱”,人们应该注意。必须注意在训练数据上计算比例因子,然后使用方程式(2)和(3)对测试数据应用相同的比例因子,否则有过度拟合的风险(您可能会使用训练过程中来自测试集的信息)。

资料来源:http : //courses.media.mit.edu/2010fall/mas622j/whiten.pdf


2
感谢您的澄清,您说得对。我指的是去相关。顺便说一句:最后,您写到只对训练数据进行美白。据我所知,您可以从训练数据中计算矩阵,但是可以同时对训练和测试数据进行计算。
2012年

@Ran是的,这就是我的意思。。我将更新答案
tdc

如果您还可以在答案中提供部分内容,那就太好了。有一个介绍,总结和数学的东西。--我认为您的回答不够深入。--您的答案主要涵盖了琐碎的命题,但在主题上不够深入。您只具有讲义中的基本复制粘贴材料,但针对该主题的工作很少。
莱奥波德·赫兹(LéoLéopoldHertz)2016年

因此,简单来说,执行pca即可获得解相关的特征,然后针对每个新特征除以方差即可得到白化的特征。
牛油果

1

http://cs231n.github.io/neural-networks-2/

这种转换的一个弱点是,它会极大地夸大数据中的噪声,因为它会将所有维度(包括微小变化的不相关维度,主要是噪声)扩展到输入中的相同大小。实际上,可以通过更强的平滑度来缓解此问题。

不幸的是,我没有受过足够的教育,无法对此发表进一步评论。


请说明哪些形式的噪声被夸大了。您的参考严格。这只是有关该主题的基础计算机科学,即采用古老的神经网络方法的白噪​​声。-- 还应定义夸张的作品。
莱奥波德·赫兹(LéoLéopoldHertz)2016年

在我看来,这仅与将所有要素缩放为具有相同方差有关,对吗?因此,如果某个特征在训练集中的方差是噪声,那么我们可能会期望该特征的总体方差比另一个特征小得多;这种转换将使“噪声”特征和另一个特征具有相同的方差,并且可以被视为“放大噪声”。
ijoseph '17
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.