Hastie等人中的这个特定数字。生成时无需计算类边界方程。而是使用@ttnphns在注释中概述的算法,请参阅第110页的4.3节中的脚注2:
对于此图和书中许多相似的图,我们通过穷举轮廓法计算决策边界。我们在一个精细的点阵上计算决策规则,然后使用轮廓算法来计算边界。
但是,我将继续描述如何获得LDA类边界方程。
让我们从一个简单的2D示例开始。这是来自虹膜数据集的数据;我放弃花瓣测量,只考虑萼片长度和萼片宽度。红色,绿色和蓝色标记为三个类别:
让我们将类均值(质心)表示为。LDA假设所有类别都具有相同的类别内协方差;在给定数据的情况下,此共享协方差矩阵的估计值(直至缩放)为,其中总和在所有数据点上,并且从每个点中减去相应类别的质心。w ^ = Σ 我(X我 - μ ķ)(X我 - μ ķ )⊤μ1个,μ2,μ3W = ∑一世(x一世- μķ)(x一世- μķ)⊤
对于每对类别(例如类别和),它们之间都有一个类别边界。显然,边界必须经过两个类质心之间的中点。LDA的主要结果之一是,该边界是与正交的直线。有几种方法可以得到此结果,即使这不是问题的一部分,我也会在下面的附录中简要提示其中的三个。2 (μ 1 + μ 2)/ 2 w ^ - 1(μ 1 - μ 2)1个2(μ1个+ μ2)/ 2w ^− 1(μ1个- μ2)
注意上面写的已经是边界的精确说明。如果要以标准形式建立线方程,则可以计算系数和,并由一些混乱的公式给出。我几乎无法想象何时需要这样做。a bÿ= a x + b一种b
现在让我们将此公式应用于Iris示例。对于每对类,我找到一个中间点并绘制一条垂直于:w ^− 1(μ一世- μĴ)
正如预期的那样,三条线在一个点处相交。决策边界由从交点开始的光线给出:
请注意,如果类的数量为,那么将有对类,因此会有很多行,所有这些行都交织在一起。要像Hastie等人的图一样绘制一张漂亮的图,一个图只需要保留必要的部分,它本身就是一个单独的算法问题(无论如何都与LDA无关,因为一个人不需要它来做)分类;要对一个点进行分类,请检查每个类别的马氏距离并选择距离最小的一个,或使用串联或成对的LDA。ķ≫ 2ķ(K− 1 )/ 2
在维中,公式保持完全相同:边界正交于并通过。但是,在较大的尺寸中,这不再是一条直线,而是尺寸的超平面。为了说明的目的,可以将数据集简单地投影到前两个判别轴上,从而将问题减少到2D情况下(我相信这是Hastie等人为产生该图所做的工作)。D > 2w ^− 1(μ1个- μ2)(μ1个+ μ2)/ 2D − 1
附录
如何查看边界是与正交的直线?以下是获得此结果的几种可能方法:w ^− 1(μ1个- μ2)
奇特的方式:推导飞机上的Mahalanobis度量;在此度量标准QED中,边界必须与正交。w ^− 1μ1个- μ2
标准的高斯方式:如果两个类都由高斯分布描述,则点属于类对数似然与。在边界上,属于第类和第类的可能性相等。写下来,简化,然后您将立即获得, QED。Xķ(X - μķ)⊤w ^− 1(X - μķ)1个2X⊤w ^− 1(μ1个- μ2)= c ^ ø Ñ 小号吨
费力但直观的方式。想象是一个单位矩阵,即所有类都是球形的。那么解决方案显而易见:边界仅与。如果类不是球形的,则可以通过球磨使它们成为球形。如果的特征分解为,则矩阵将解决问题(请参见此处的示例)。因此,在应用,边界与正交。如果采用该边界,则将其转换回w ^μ1个- μ2w ^W = U D U⊤S = D- 1 / 2ü⊤小号小号( μ1个- μ2)小号− 1并询问它现在正交于什么,答案(作为练习左)是:到。插入的表达式,我们得到QED。小号⊤小号( μ1个- μ2)小号