当样本量小于变量数时,为什么样本协方差矩阵是奇异的?


30

假设我有一个维多元高斯分布。我借此Ñ意见(每个他们的p维矢量)从该分布并计算样本协方差矩阵小号。在本文中,作者指出p > n计算的样本协方差矩阵是奇异的。pnpSp>n

  • 它是真实的还是衍生的?
  • 有什么解释吗?

4
请注意,这是独立于基础分布的真实情况:它不需要是高斯的。
变形虫说恢复莫妮卡2015年

Answers:


22

有关矩阵等级的一些事实,没有提供证明(但所有或几乎所有证明都应在标准线性代数文本中给出,或者在某些情况下,在提供足够的信息后可以用作练习):

如果AB是两个相容矩阵,则:

(i)的列秩A =的行秩A

(ii)rank(A)=rank(AT)=rank(ATA)=rank(AAT)

rank(AB)min(rank(A),rank(B))

(iv)rank(A+B)rank(A)+rank(B)

(v)如果是满秩的方阵,则Brank(AB)=rank(A)

考虑样本数据的矩阵。从上面可以看出,的秩最大为。n×pyymin(n,p)

此外,从上面可以明显看出,的秩不会大于的秩(考虑矩阵形式的的计算,并可能进行一些简化)。SyS

如果则在这种情况下。n<prank(y)<prank(S)<p


好答案!但是还不清楚y和S与A和B的关系如何?
Matifou

S是根据y计算得出的;(原始帖子中的“ x”)。您可以使用有关y的事实以及对y进行的操作(通过上述规则)来限制S的等级。A和B扮演的角色随步骤而变化。
Glen_b-恢复莫妮卡

14

您问题的简短答案是等级。因此,如果,则是奇异的。(S)n1p>nS

有关更详细的答案,请记住,(无偏)样本协方差矩阵可以写为

S=1n1i=1n(xix¯)(xix¯)T.

有效地,我们正在对矩阵求和,每个矩阵的秩为1。假设观测值是线性独立的,在某种意义上,每个观测值对秩贡献1 ,并且从秩中减去1(如果)。因为我们通过每个观察值居中。但是,如果观测值中存在多重共线性,则秩可能会降低,这说明了为何秩可能小于。nxi(S)p>nx¯(S)n1

研究此问题的工作量很大。例如,我的一位同事和我写了一篇关于同一主题的论文,在设置中将线性判别分析应用于时,如果我们将设为奇数,我们有兴趣确定如何进行处理。Spn


4
您能否详细说明为什么减去1,因为我们将每个观察值都以x¯
牛油果


好答案!也许可以为我们正在对sum个矩阵求和的语句添加一个解释/链接,每个矩阵的等级为1?谢谢!
Matifou

10

当您以正确的方式看待情况时,结论在直观上是显而易见的,直接的。

这篇文章提供了两个演示。紧随其后的第一个是用文字。它等效于一个简单的图形,显示在最后。在两者之间是对词语和附图含义的解释。


观测值的协方差矩阵是一个矩阵,它是通过将矩阵(最近数据)与其转置相乘而得出的。矩阵的乘积通过向量空间的流水线发送向量,其中向量的维数为和。因此,该协方差矩阵,QUA线性变换,将发送到子空间,其尺寸为至多。立即,协方差矩阵的秩不大于 因此,如果n pp×pXnpXpnpnRnmin(p,n)min(p,n)p>n则秩最多为,它严格小于表示协方差矩阵是奇异的。np

所有这些术语在本文的其余部分中都有详细说明。

(正如Amoeba在现在已删除的评论中所指出的,并在对一个相关问题的回答中显示,的图像实际上位于的一个一维子空间中(由向量组成,分量之和为零),因为其所有列都重新定为零,因此样本协方差矩阵的秩不能超过。XRn1n1XXn1


线性代数全部关于向量空间的跟踪。您只需要了解一些基本概念即可对有关等级和奇异性的主张有深刻的直觉:

  1. 矩阵乘法表示向量的线性变换。 一矩阵表示由线性变换维空间到维空间。具体来说,它将任何发送到。这是线性变换,紧随其后的是线性变换的定义和矩阵乘法的基本算术特性。m×nMnVnmVmxVnMx=yVm

  2. 线性变换永远不会增加尺寸。 这意味着在变换下的整个向量空间的图像(这是的子向量空间)的维数可以不大于。这是一个根据维数定义的(简单)定理。VnMVmn

  3. 任何子向量空间的尺寸都不能超过其所在空间的尺寸。 这是一个定理,但又很明显,很容易证明。

  4. 线性变换的等级是其图像的尺寸。 矩阵的秩是它表示的线性变换的秩。这些是定义。

  5. 奇异矩阵具有秩不是严格更少Mmnn(其结构域的尺寸)。换句话说,其图像具有较小的尺寸。这是一个定义。

要发展直觉,有助于查看尺寸。因此,我将在和紧随其后写出所有矢量和矩阵的尺寸。因此,通用公式Mmnxn

ym=Mmnxn

旨在表示当将矩阵应用于向量,会产生向量。m×nMnxmy

矩阵的乘积可以看作是线性变换的“管道”。 一般地,假设是从线性变换的连续应用产生维向量和到来自空间的向量。这将使向量依次通过一组尺寸为以及最后 a的向量空间。yaaMmn,Llm,,Bbc,AabnxnVnxnm,l,,c,b,a

寻找瓶颈:因为尺寸不能增加(点2)并且子空间的尺寸不能大于它们所在的空间(点3),所以得出图像的尺寸不能超过最小尺寸在管道中遇到。Vnmin(a,b,c,,l,m,n)


然后,该流水线图完全证明了将其应用于乘积:XX

![在此处输入图片描述

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.