健壮的PCA(由Candes等人2009或Netrepalli等人2014年开发)是一种流行的多变量离群值检测方法,但考虑到协方差矩阵的鲁棒,规则化估计,马氏距离也可以用于离群值检测。我很好奇使用一种方法相对于另一种方法的(缺点)优势。
我的直觉告诉我,两者之间的最大区别是:当数据集为“小”(从统计意义上来说)时,稳健的PCA将给出较低等级的协方差,而稳健的协方差矩阵估计将给出完整的-由于Ledoit-Wolf正则化导致的秩协方差。这又如何影响离群值检测?
有趣的问题,但是我看不到没有特定用例的情况下如何激发答案。您是否有“严重损坏的观察结果”?您通常有嘈杂的数据吗?许多RPCA实现方法本质上都是健壮的协方差估计技术(请参阅Jolliffe's Princ。Component Analysis,Ed。2nd Ch。10),其中PC是从协方差的常规估计中估计的。因此,您提到的两种方法的区别还很明显。通常,在特定应用程序的上下文中,自动异常值检测是成功的。
—
usεr11852恢复单胞菌说,
“嘈杂的数据”问题不是异常检测。我认为异常值检测问题本身就具有足够的限制,可以在没有用例的情况下对这两种方法进行一般比较。这是关于方法论的问题。
—
Mustafa S Eisa
也许我试图在太小的空间里说太多,对此感到抱歉。我要引起注意的是,您提到的两种方法并没有区别。您应该考虑将重点更多放在投影追踪方法(称为RPCA)和鲁棒协方差估计方法(称为Mahalanobis距离)之间的比较上。健壮的协方差估计本身对于RPCA实现是一种非常有效的方法(例如google“ PCA M-Estimation”)。不太会提及您在RPCA上下文中未提及的加权PCA方法的存在。
—
usεr11852恢复单胞菌说,
无需道歉:)两种方法非常不同,尤其是在小型数据集上。我的问题结尾提到了它们与众不同的一种方式。尽管(鲁棒的)PCA可以看作是投影问题,但也可以将其解释为协方差估计问题,因此,参数估计方法与应用程序和性能的区别可能更少。
—
Mustafa S Eisa