第91页上的“统计学习的要素”中有一些词:
p维输入空间中的K个质心跨度最多为K-1维子空间,并且如果p比K大得多,则维数将显着下降。
我有两个问题:
- 为什么p维输入空间中的K个质心最多跨越K-1维子空间?
- K重心如何定位?
书中没有任何解释,我也没有从相关论文中找到答案。
第91页上的“统计学习的要素”中有一些词:
p维输入空间中的K个质心跨度最多为K-1维子空间,并且如果p比K大得多,则维数将显着下降。
我有两个问题:
书中没有任何解释,我也没有从相关论文中找到答案。
Answers:
判别式是最能区分类别的轴和潜变量。可能的判别数为。例如,对于p = 2维空间中的k = 3个类别,最多可以存在2个判别式,例如下图所示。(请注意,判别式不一定像在原始空间中绘制的轴那样是正交的,尽管它们作为变量是不相关的。)类的质心根据其在判别式上的垂直坐标位于判别子空间内。
提取阶段的LDA代数在这里。
虽然“统计学习的要素”是一本出色的书,但它需要相对较高的知识水平,才能从中获得最大的收益。网络上还有许多其他资源可以帮助您了解本书中的主题。
让我们举一个线性判别分析的非常简单的示例,在该示例中,您要将一组二维数据点分组为K = 2组。尺寸的下降只有K-1 = 2-1 =1。如@deinst所述,尺寸的下降可以用基本几何来解释。
一条线可以连接任意维度上的两个点,而一条线是一维的。这是一个K-1 = 2-1 = 1维子空间的示例。
现在,在这个简单的示例中,数据点集将散布在二维空间中。这些点将由(x,y)表示,因此,例如,您可以拥有诸如(1,2),(2,1),(9,10),(13,13)之类的数据点。现在,使用线性判别分析创建两个组A和B将导致数据点被分类为属于组A或组B,从而满足某些属性。与组内方差相比,线性判别分析尝试使组间方差最大化。
换句话说,组A和B将相距很远,并且包含彼此靠近的数据点。在这个简单的示例中,很明显,这些点将按以下方式分组。组A = {(1,2),(2,1)},组B = {(9,10),(13,13)}。
现在,质心被计算为数据点组的质心,因此
Centroid of group A = ((1+2)/2, (2+1)/2) = (1.5,1.5)
Centroid of group B = ((9+13)/2, (10+13)/2) = (11,11.5)
质心仅是2个点,它们跨越一维线,将它们连接在一起。
您可以将线性判别分析视为一条线上的数据点的投影,以便将两组数据点“尽可能地分开”
如果您有三个组(并说三个维度的数据点),那么您将获得三个质心,只需三个点,而3D空间中的三个点就定义了一个二维平面。同样,规则K-1 = 3-1 = 2维。
我建议您在网络上搜索资源,这些资源将有助于解释和扩展我所提供的简单介绍;例如http://www.music.mcgill.ca/~ich/classes/mumt611_07/classifiers/lda_theory.pdf