线性判别分析如何减小尺寸?


18

第91页上的“统计学习的要素”中有一些词:

p维输入空间中的K个质心跨度最多为K-1维子空间,并且如果p比K大得多,则维数将显着下降。

我有两个问题:

  1. 为什么p维输入空间中的K个质心最多跨越K-1维子空间?
  2. K重心如何定位?

书中没有任何解释,我也没有从相关论文中找到答案。


3
所述质心位于一个至多维仿射子空间。例如,线上有两个点,即维子空间。这只是一个仿射子空间和一些基本线性代数的定义。ķ - 1 2 - 1KK121
deinst 2012年

一个非常相似的问题:stats.stackexchange.com/q/169436/3277
ttnphns

Answers:


16

判别式是最能区分类别的轴和潜变量。可能的判别数为。例如,对于p = 2维空间中的k = 3个类别,最多可以存在2个判别式,例如下图所示。(请注意,判别式不一定像在原始空间中绘制的轴那样是正交的,尽管它们作为变量是不相关的。)类的质心根据其在判别式上的垂直坐标位于判别子空间内。min(k1,p)

在此处输入图片说明

提取阶段的LDA代数在这里


漂亮的图表,您使用什么软件/软件包创建它?
米歇尔(Michelle)

SPSS。SPSS的自写宏。
ttnphns 2012年

这是否意味着在重新缩放轴之前,在具有三个重叠的LDA的LDA中不会看到良好的类分离?我的意思是,我正在运行一个LDA,并且我的类是分开的...但是它们在除第一个之外的所有可区分轴上都彼此相邻...并且那是巨大的。
donlan '16

14

虽然“统计学习的要素”是一本出色的书,但它需要相对较高的知识水平,才能从中获得最大的收益。网络上还有许多其他资源可以帮助您了解本书中的主题。

让我们举一个线性判别分析的非常简单的示例,在该示例中,您要将一组二维数据点分组为K = 2组。尺寸的下降只有K-1 = 2-1 =1。如@deinst所述,尺寸的下降可以用基本几何来解释。

一条线可以连接任意维度上的两个点,而一条线是一维的。这是一个K-1 = 2-1 = 1维子空间的示例。

现在,在这个简单的示例中,数据点集将散布在二维空间中。这些点将由(x,y)表示,因此,例如,您可以拥有诸如(1,2),(2,1),(9,10),(13,13)之类的数据点。现在,使用线性判别分析创建两个组A和B将导致数据点被分类为属于组A或组B,从而满足某些属性。与组内方差相比,线性判别分析尝试使组间方差最大化。

换句话说,组A和B将相距很远,并且包含彼此靠近的数据点。在这个简单的示例中,很明显,这些点将按以下方式分组。组A = {(1,2),(2,1)},组B = {(9,10),(13,13)}。

现在,质心被计算为数据点组的质心,因此

Centroid of group A = ((1+2)/2, (2+1)/2) = (1.5,1.5) 

Centroid of group B = ((9+13)/2, (10+13)/2) = (11,11.5)

质心仅是2个点,它们跨越一维线,将它们连接在一起。

图1

您可以将线性判别分析视为一条线上的数据点的投影,以便将两组数据点“尽可能地分开”

如果您有三个组(并说三个维度的数据点),那么您将获得三个质心,只需三个点,而3D空间中的三个点就定义了一个二维平面。同样,规则K-1 = 3-1 = 2维。

我建议您在网络上搜索资源,这些资源将有助于解释和扩展我所提供的简单介绍;例如http://www.music.mcgill.ca/~ich/classes/mumt611_07/classifiers/lda_theory.pdf


1
欢迎来到我们的网站马蒂诺!
ub

谢谢@whuber,漂亮的图表,我手边没有任何此类工具:(
martino 2012年

我认为您无论如何都不敢发布图像,Martino:这就是为什么我为您制作了图像。但是现在-或很快-您将有足够的代表。如果没有什么方便的话,可以使用具有RGeogebra等几何图形功能的免费软件。(您会发现插图的回复会得到更多的关注:它们更有吸引力且更具可读性。)
whuber

为什么要下票?如果答案有问题,请指出-我看不到
martino 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.