为什么PCA对异常值敏感?


26

该SE上有许多帖子讨论了主成分分析(PCA)的可靠方法,但是我无法找到一个很好的解释,说明为什么 PCA首先对异常值敏感。


5
因为L2规范对于异常值的贡献很高。然后,当最小化L2范数时(这是PCA试图做到的),这些点将比更接近中间点的点更难拟合。
mathreadler '18

该答案将告诉您所需的一切。只需描绘一个异常值,然后仔细阅读即可。
S. Kolassa-恢复莫妮卡

Answers:


35

原因之一是可以将PCA视为数据的低秩分解,该分解使分解残差的范数的总和最小化。即如果是您的数据(维度的向量),是PCA基础(维度的向量),则分解将严格最小化 这里A是PCA分解系数的矩阵,\ lVert \ cdot \ rVert_F是该矩阵的Frobenius范数L2YmnXkn

YXAF2=j=1mYjXAj.2
AF

因为PCA最小化L2范数(即二次范数),所以它具有对最小二乘方或因对异常值敏感而拟合高斯的问题。由于与离群值的平方差较大,因此它们将主导总体规范,因此将驱动PCA组件。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.