是否有对数据矩阵


107

对于给定的数据矩阵A(列中有变量,行中有数据点),似乎ATA在统计中起着重要作用。例如,它是普通最小二乘分析解决方案的重要组成部分。或者,对于PCA,其特征向量是数据的主要成分。

我知道如何计算ATA,但是我想知道是否可以直观地解释此矩阵表示什么,从而导致它的重要作用?


2
stats.stackexchange.com/a/66295/919的分析可能会提供一些直觉。
whuber

Answers:


125

几何学上,矩阵称为的矩阵的标量积(=点积,=内积)。在代数上,它称为平方和和乘积矩阵(SSCP)。AA

它的第个对角元素等于a 2 i ,其中a i 表示A的i列中的值,而是各行之和。其中的第i j个非对角元素为a i a j ia(i)2a(i)iAija(i)a(j)

有许多重要的关联系数,它们的平方矩阵称为角度相似度或SSCP类型相似度:

  • 将SSCP矩阵除以,即样本大小或A的行数,即可得到MSCP(均方和叉积)矩阵。因此,该关联度量的成对公式为x ynA(向量xyA的一对列)。xynxyA

  • 如果您居中的列(变量),然后一个'AAA散射(或共同分散,如果是严格)基质和协方差矩阵。协方差的成对公式为c x c yAA/(n1)其中cxcy表示中心列。cxcyn1cxcy

  • 如果z- 标准化A的A(减去列的平均值和通过标准偏差除),然后是皮尔森相关矩阵:相关性是标准化变量的协方差。成对的相关公式为z x z yAA/(n1)zxzy表示标准化列。该相关也称为线性系数。zxzyn1zxzy

  • 如果您单位A的A(把他们的SS,求和的平方为1),然后余弦相似矩阵。因此,等效的成对公式似乎是u x u y = x yAA其中uxuy表示L2归一化列。余弦相似度也称为比例系数。uxuy=xyx2y2uxuy

  • 如果居中然后单位- 规模的列,然后'再次是皮尔森相关矩阵,因为相关性是居中变量余弦1 2AAA1,2CüXCüÿ=CXCÿCX2Cÿ2

除了这些四个主要的关联措施,也让我们提一些其他的,也是基于,最糟糕的是。可以将它们视为余弦相似度的替代方法,因为它们采用与归一化不同的公式,即公式中的分母:一种一种

  • 同一性系数[Zegers&Ten Berge,1985]的分母为算术平均值而不是几何平均值:。当且仅当A的被比较列相同时,才可以为1。xy(x2+y2)/2A

  • 另一个类似的可用系数称为相似比xyx2+y2xy=xyxy+(xy)2

  • 最后,如果中的值是非负值,并且它们在列中的总和为1(例如,它们是比例),则A保真度Bhattacharyya系数的矩阵。A一种


还一种方法来计算相关或协方差矩阵,由许多统计软件包使用的,绕过定心的数据,并直接从SSCP矩阵离开'这种方式。令 s为数据 A的列总和的行向量,而 n为数据中的行数。然后(1)计算所述散布矩阵为 C ^ = '- 小号'小号/ Ñ [那里, Ç /ñ - 1 将协方差矩阵]; (2) C的对角线1个一种一种s一种ñC=一种一种-ss/ñC/ñ-1个C是行向量的平方偏差之和; (3)计算相关矩阵R = C / d[R=C/dd

一位敏锐但统计上新手的读者可能会发现很难调和两个相关的定义,即“协方差”(包括按样本量平均,除以df=“ n-1”)和“余弦”(表示无这样的平均值)。但是实际上,在相关的第一个公式中没有真正的平均发生。事情是那圣。依次通过除以相同的df来计算达到z标准化的偏差;因此,如果解开该公式,则相关协方差公式中的分母“ n-1”将完全抵消:该公式变为余弦公式。要计算你真的需要经验的相关值知道 ñ2ñ (除非计算平均值,否则要居中)。


42

矩阵包含以下所有列的所有内积ATAA。因此,对角线包含列的平方范数。如果考虑各列所跨越的列空间上的几何图形和正交投影,您可能还记得,跨越该空间的向量的范数和内积在投影的计算中起着核心作用。最小二乘回归以及主成分可以通过正交投影来理解。A

还要注意,如果的列是正交,从而形成为列的空间,那么一个标准正交基Ť= -AATA=I 单位矩阵。


39

@NRH提供了很好的技术答案。

如果您想要真正基本的东西,可以将视为与标量A 2相等的矩阵。一种Ť一种一种2


5
尽管其他答案在技术上更“正确”,但这是最直观的答案。
CatsLoveJazz

3

的几何形状的一个重要观点是这样(在斯特朗的书的“线性代数及其应用”的观点出发,强烈强调):假设A是× Ñ等级为k的-矩阵,表示线性地图 - [R ñř 。让上校(A)和行(A)是列和行空间一个。然后AAm×nA:RnRmA

(a)作为一个实对称矩阵,具有基础 { ë 1ê Ñ }非零特征值的特征向量的 ð 1... d ķ(AA):RnRn{e1,...,en}d1,,dk。从而:

(AA)(x1e1++xnen)=d1x1e1+...+dkxkek

(b)根据Col(A)的定义,范围(A)= Col(A)。因此,A | Row(A)将Row(A)映射到Col(A)。

(c)内核(A)是行(A)的正交补码。这是因为矩阵乘法是根据点积(行i)*(col j)定义的。(因此Av=0v is in Kernel(A)vis in orthogonal complement of Row(A)

(d) A | Row(A)Row(A)C o l A 是同构的。A(Rn)=A(Row(A))A|Row(A):Row(A)Col(A)

Reason: If v = r+k (r \in Row(A), k \in Kernel(A),from (c)) then
A(v) = A(r) + 0 = A(r) where A(r) = 0 <==> r = 0$.

[偶然提供了行等级=列等级的证明!]

(e)申请(d), 是同构A|:Col(A)=Row(A)Col(A')=Row(A)

(f)将(d)和(e):和A'A地图行(A)同构到行(A)。AA(Rn)=Row(A)


2
您可以将公式包含在$$中以获得大号一种ŤËX
Placidia

1

尽管已经讨论过一种Ť一种具有取点积的含义,但我只会添加这种乘法的图形表示。

事实上,尽管矩阵的行一种Ť(和矩阵的列一种)表示变量,我们将每个变量测量值作为一个多维矢量。乘以行rowpAT与列colpA相当于服用两个向量的点积:dot(rowp,colp) -结果是所述条目在位置(p,p)在矩阵ATA

类似地,行乘以pAT与列kA等同于点积:dot(rowp,colk),结果在位置(p,k)

所得矩阵A T A的项(p,k)的含义是向量r o w p在向量c o l k的方向上有多少。如果两个向量r o w ic o l j的点积不为零,则有关向量r o w i的一些信息ATArowpcolkrowicoljrowi携带通过载体colj,反之亦然。

这个想法在主成分分析中起着重要的作用,我们想要找到初始数据矩阵A的新表示形式,这样就不会在任何其他列j中携带任何有关列i更多信息。ji。深入研究PCA,您会发现计算出了协方差矩阵的“新版本”,它变成了对角矩阵,我留给您意识到……确实意味着我在前一句话中所表达的。

在此处输入图片说明


0

有一定程度的直觉。对于那些熟悉矩阵表示法统计的人来说,直觉是将其视为随机变量的平方:xE[x2] vs AATA

在矩阵表示法中,随机变量x观测值xi或总体的样本由列向量表示:

a=[x1x2xn]

所以,如果你想获得该变量的平方的样本均值x,你只需获取点积

x2¯=aan
,在矩阵符号上与ATA

σ2=E[x2]ATAATA

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.