数据空间,变量空间,观察空间,模型空间(例如,线性回归)


9

假设我们有一个数据矩阵(它是 ×)和标签矢量(它是 ×1)。在这里,矩阵的每一行都是一个观察值,每一列都对应一个维度/变量。(假设)Xñpÿññ>p

那么什么data spacevariable spaceobservation spacemodel space是什么意思?

列向量跨越的空间是否是一个(退化的) -D空间,因为它具有坐标,而列为,又称为列可变空间,因为它被变量向量跨越了?还是因为每个维度/坐标都对应一个观测值,所以将其称为观测空间?ññp

行向量跨越的空间又如何呢?


5
这些不是众所周知的术语。你有参考吗?如果不是,我们可能正在猜测它们的意图。
whuber

1
我没有参考。我曾经听过我的教授在一段时间前说过这句话。
user3813057 '16

3
那么,我很确定您的教授在某些时候定义了这些术语。也许它们在您的课堂笔记中。
whuber

Answers:


14

这些术语出现在一些有关多元统计的书籍中。假设您n通过p定量特征数据矩阵拥有个人。然后,您可以在轴为要素的空间中绘制个人作为点。那将是经典的散点图,又名可变空间图。我们说,个人的云跨越了轴特征定义的空间。

您也可以设想散点图,其中点是变量,而轴是个体。绝对像以前一样,只是一团糟。那将是主题空间图(或观察空间图),其中的变量跨越该主题空间图,由个人定义。

注意,如果(如经常)n>p然后,在第二种情况下,只有部分p的尺寸出n尺寸非冗余; 这意味着您可以并且可以pp尺寸图1上绘制变量点。同样,根据传统,可变点通常与原点相关,因此它们显示为矢量(箭头)。我们主要使用主题空间表示法来显示变量之间的关系,因此,为了方便起见,我们将轴对象放下并将点描绘为箭头。1个

如果在绘制主题空间图之前将要素(数据矩阵的列)居中,则变量向量之间的角度的余弦值等于它们的皮尔逊相关性,而向量长度等于变量的范数(平方根的和) )或标准偏差(如果除以df)。

可变空间和主题空间是同一枚硬币的两个侧面,它们是相同的欧几里得解析空间,彼此呈镜像状。它们具有相同的属性,例如非零特征值和特征向量。因此,可以同时将主题和变量作为该分析空间的主轴空间(或其他正交基准)中的点绘制成图,该联合图称为biplot。我不确切地知道“数据空间”一词的含义-如果它表示特定的含义,那么我想这是假设空间和可变空间是两个假设的共同分析空间。

在此处输入图片说明

一些本地链接:


1个n=5p=2


2
+1。但是我不确定说变量和主题空间是“相同的欧氏解析空间”的确切数学含义是什么。
变形虫

3
@amoeba,我希望它在数学上是透明的(特别是对于像您这样的线性代数专家),我不希望对其进行数学解释。例如,在数据矩阵的奇异值分解(svd,该双谱图基于此)中,特征值和左右特征向量分别代表什么空间?它不是相同的分析空间,可以用各种方式进行布局,其中(i)以主轴为轴的行和列为点;(ii)以行为点,以列为轴;(iii)以列为点,以行为轴?
ttnphns
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.