为什么通过Bartlett检验诊断的球形度表示PCA不适当?


14

我了解Bartlett检验与确定您的样本是否来自方差相等的总体有关。

如果样本来自方差相等的总体,则我们无法拒绝检验的原假设,因此,主成分分析是不合适的。

我不确定这种情况(具有同方差数据集)的问题在哪里。拥有所有数据的基础分布都相同的数据集会出现什么问题?如果存在这种情况,我只是没什么大不了的。为什么这会使PCA不合适?

我似乎无法在网上找到任何好的信息。有人解释这一测试为何与PCA有关的经验吗?

Answers:


15

回答问题标题。

通常在PCA或因子分析之前进行的Bartlett球形度检验,测试数据是否来自协方差为零的多元正态分布。(请注意,测试的标准渐近版本对多元多元正态性完全没有鲁棒性。人们可能会在非高斯云中使用自举法。)等价地说,零假设是总体相关矩阵是恒等矩阵或协方差矩阵是对角一。1

现在想象一下,多元云是完美的球形(即其协方差矩阵与单位矩阵成比例)。那么1)任何任意尺寸都可以充当主要组件,因此PCA解决方案不是唯一的;2)所有分量具有相同的方差(特征值),因此PCA不能帮助减少数据。

想象一下第二种情况,其中多元云严格沿变量轴呈椭圆形(即其协方差矩阵为对角线:除对角线外所有值均为零)。那么PCA变换隐含的旋转将为零;主要成分是变量本身,仅重新排序并有意地符号还原。这是一个微不足道的结果:无需PCA即可丢弃一些弱尺寸以减少数据。


1以巴特利特(Bartlett)的名字命名统计中的几项(至少我认为是三项)测试。这里我们说的是巴特利特的球形度测试。


14

看来有两个测试称为Bartlett测试。您引用的样本(1937)确定样本是否来自方差相等的总体。另一个似乎是测试一组数据的相关矩阵是否为单位矩阵(1951)。更有意义的是,您不会对具有身份相关矩阵的数据运行PCA,因为您将只获取原始变量,因为它们已经不相关了。比较,例如


2
+1这比其他答案更好地解决了混乱。
HelloWorld 2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.