iid(均匀或正态)数据的特征值估计分布


9

假设我有一个数据集 d 尺寸(例如 d=20),以便每个维度都是iid XiU[0;1] (或者,每个维度 XiN[0;1]),并且彼此独立。

现在,我从该数据集中绘制一个随机对象,并采用 k=3d最近的邻居,并在此集合上计算PCA。与人们可能期望的相反,特征值并不完全相同。在20个尺寸统一的情况下,典型结果如下所示:

0.11952316626613427, 0.1151758808663646, 0.11170020254046743, 0.1019390988585198,
0.0924502502204256, 0.08716272453538032, 0.0782945015348525, 0.06965903935713605, 
0.06346159593226684, 0.054527131148532824, 0.05346303562884964, 0.04348400728546128, 
0.042304834600062985, 0.03229641081461124, 0.031532033468325706, 0.0266801529298156, 
0.020332085835946957, 0.01825531821510237, 0.01483790669963606, 0.0068195084468626625

对于正态分布数据,结果似乎非常相似,至少在将它们重新缩放为总和为 1N[0;1]d 分布显然首先具有较高的方差)。

我想知道是否有任何结果可以预测这种行为?我正在寻找测试该特征值序列是否一定规律,多少特征值符合预期以及哪些特征值与预期值明显不同的方法。

对于给定的(小)样本量 k,如果两个变量的相关系数显着,是否有结果?即使是iid变量,有时偶尔也会得到非0的结果k


1
嗯,您能用更少的无花果打印这些结果吗?我不能轻易解析它们……
shabbychef 2012年

好了,正如您所看到的,幅度很有趣。天真的,他们会期望它们都具有相同的大小。
已退出–Anony-Mousse 2012年

Answers:


7

关于随机矩阵的特征值分布有大量文献(您可以尝试使用Google搜索随机矩阵理论)。尤其是,Marcenko-Pastur分布可预测特征变量的协方差矩阵的特征值分布i.i.d.当变量和观测值的数量达到无穷大时,均值为零且方差相等的数据。密切相关的是维格纳的半圆分布。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.