稳健的PCA与稳健的Mahalanobis距离,可用于异常值检测


17

健壮的PCA(由Candes等人2009Netrepalli等人2014年开发)是一种流行的多变量离群值检测方法,但考虑到协方差矩阵鲁棒,规则化估计,马氏距离也可以用于离群值检测。我很好奇使用一种方法相对于另一种方法的(缺点)优势。

我的直觉告诉我,两者之间的最大区别是:当数据集为“小”(从统计意义上来说)时,稳健的PCA将给出较低等级的协方差,而稳健的协方差矩阵估计将给出完整的-由于Ledoit-Wolf正则化导致的秩协方差。这又如何影响离群值检测?


有趣的问题,但是我看不到没有特定用例的情况下如何激发答案。您是否有“严重损坏的观察结果”?您通常有嘈杂的数据吗?许多RPCA实现方法本质上都是健壮的协方差估计技术(请参阅Jolliffe's Princ。Component Analysis,Ed。2nd Ch。10),其中PC是从协方差的常规估计中估计的。因此,您提到的两种方法的区别还很明显。通常,在特定应用程序的上下文中,自动异常值检测是成功的。
usεr11852恢复单胞菌说,

1
“嘈杂的数据”问题不是异常检测。我认为异常值检测问题本身就具有足够的限制,可以在没有用例的情况下对这两种方法进行一般比较。这是关于方法论的问题。
Mustafa S Eisa

也许我试图在太小的空间里说太多,对此感到抱歉。我要引起注意的是,您提到的两种方法并没有区别。您应该考虑将重点更多放在投影追踪方法(称为RPCA)和鲁棒协方差估计方法(称为Mahalanobis距离)之间的比较上。健壮的协方差估计本身对于RPCA实现是一种非常有效的方法(例如google“ PCA M-Estimation”)。不太会提及您在RPCA上下文中未提及的加权PCA方法的存在。
usεr11852恢复单胞菌说,

无需道歉:)两种方法非常不同,尤其是在小型数据集上。我的问题结尾提到了它们与众不同的一种方式。尽管(鲁棒的)PCA可以看作是投影问题,但也可以将其解释为协方差估计问题,因此,参数估计方法与应用程序和性能的区别可能更少。
Mustafa S Eisa

@ MustafaSEisa /好问题!我认为可以从方法论的角度来回答:实际上,这是我的皮特·皮韦斯之一。我将尽快尝试一下。同时; 我认为,从更笼统的角度讲,它是一种富有成果的方法,它是研究使用具有嵌套但不相等的一组不变性的模型的结果。当我尝试在稍微不同的上下文中执行此操作时。
user603

Answers:


7

本文比较了这方面的一些方法。它们将您链接的“鲁棒PCA”方法称为“ PCP”(主要成分追踪),将您链接用于稳健协方差估计的方法系列称为M估计器。

他们认为

PCP设计用于统一破坏数据的坐标,而不是破坏数据点(即离群值),因此,与PCP进行比较对于此类数据有些不公平

并表明在某些情况下,PCP(又名健壮的PCA)可能无法进行异常检测。

他们还讨论了三种“子空间恢复的敌人”,即不同种类的离群值,以及哪种方法可能对付每种异常。将您自己的异常值与此处讨论的三种“敌人”进行比较可能会帮助您选择一种方法。


感谢大卫,我将看一下这篇论文。但是,存在一种健壮的PCA版本,它在数据(数据矩阵的行)上施加旋转不变的惩罚,而不是在坐标上施加惩罚(例如在Candes情况下)。有什么想法吗?
Mustafa S Eisa

我不确定我是否理解您的问题。您是否要我将问题中讨论的两种方法与另一种健壮的PCA方法进行比较?
戴维·哈里斯

在您的答案中,您通过指出 1个 penalty in robust PCA is not rotationally-invariant and so is better suited to corruptions in the canonical basis. I’m just asking if you’ve considered or thought about the case in which a sum of (Euclidean) row norms is used in place of the 1 coordinate penalties.
Mustafa S Eisa

If your answer is, “No” that’s totally fine I’m just wondering.
Mustafa S Eisa

Oh, I see. Would that be a special case of Mahalanobis distance?
David J. Harris
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.