计算和绘制LDA决策边界的图形


19

我从《统计学习的要素》中看到了带有决策边界的LDA(线性判别分析)图:在此处输入图片说明

我知道数据被投影到较低维的子空间上。但是,我想知道我们如何在原始维度上获得决策边界,以便可以将决策边界投影到较低维度的子空间上(如上图中的黑线)。

是否可以使用公式来计算原始(较高)维度中的决策边界?如果是,那么此公式需要哪些输入?


3
您可能会发现,在考虑类成员资格的后验概率时,您可能会发现,它比决策界限更有用。可以使用多项式(多项式)逻辑回归以较少的假设完成此操作,但也可以使用LDA(后验概率)完成此操作。
Frank Harrell'4

2
在LDA中,这些分类边界构成了已知的地域图。我使用SPSS,并且以文本格式进行绘制根据一位SPSS设计师的说法,可以通过实际方法轻松找到边界:
ttnphns 2014年

3
(续)细网格的每个点都经过LDA分类,然后,如果某个点被分类为与它的相邻点相同,则不会显示该点。因此,最后仅留下了作为“歧义带”的边界。引文:they (bondaries) are never computed. The plot is drawn by classifying every character cell in it, then blanking out all those surrounded by cells classified into the same category
ttnphns 2014年

Answers:


21

Hastie等人中的这个特定数字。生成时无需计算类边界方程。而是使用@ttnphns在注释中概述的算法,请参阅第110页的4.3节中的脚注2:

对于此图和书中许多相似的图,我们通过穷举轮廓法计算决策边界。我们在一个精细的点阵上计算决策规则,然后使用轮廓算法来计算边界。

但是,我将继续描述如何获得LDA类边界方程。

让我们从一个简单的2D示例开始。这是来自虹膜数据集的数据;我放弃花瓣测量,只考虑萼片长度和萼片宽度。红色,绿色和蓝色标记为三个类别:

虹膜数据集

让我们将类均值(质心)表示为。LDA假设所有类别都具有相同的类别内协方差;在给定数据的情况下,此共享协方差矩阵的估计值(直至缩放)为,其中总和在所有数据点上,并且从每个点中减去相应类别的质心。w ^ = Σ X - μ ķX - μ ķ μ1个μ2μ3w ^=一世X一世-μķX一世-μķ

对于每对类别(例如类别和),它们之间都有一个类别边界。显然,边界必须经过两个类质心之间的中点。LDA的主要结果之一是,该边界是与正交的直线。有几种方法可以得到此结果,即使这不是问题的一部分,我也会在下面的附录中简要提示其中的三个。2 μ 1 + μ 2/ 2 w ^ - 1μ 1 - μ 21个2μ1个+μ2/2w ^-1个μ1个-μ2

注意上面写的已经是边界的精确说明。如果要以标准形式建立线方程,则可以计算系数和,并由一些混乱的公式给出。我几乎无法想象何时需要这样做。a bÿ=一种X+b一种b

现在让我们将此公式应用于Iris示例。对于每对类,我找到一个中间点并绘制一条垂直于:w ^-1个μ一世-μĴ

Iris数据集的LDA,决策边界

正如预期的那样,三条线在一个点处相交。决策边界由从交点开始的光线给出:

Iris数据集的LDA,最终决策边界

请注意,如果类的数量为,那么将有对类,因此会有很多行,所有这些行都交织在一起。要像Hastie等人的图一样绘制一张漂亮的图,一个图只需要保留必要的部分,它本身就是一个单独的算法问题(无论如何都与LDA无关,因为一个人不需要它来做)分类;要对一个点进行分类,请检查每个类别的马氏距离并选择距离最小的一个,或使用串联或成对的LDA。ķ2ķķ-1个/2

在维中,公式保持完全相同:边界正交于并通过。但是,在较大的尺寸中,这不再是一条直线,而是尺寸的超平面。为了说明的目的,可以将数据集简单地投影到前两个判别轴上,从而将问题减少到2D情况下(我相信这是Hastie等人为产生该图所做的工作)。d>2w ^-1个μ1个-μ2μ1个+μ2/2d-1个

附录

如何查看边界是与正交的直线?以下是获得此结果的几种可能方法:w ^-1个μ1个-μ2

  1. 奇特的方式:推导飞机上的Mahalanobis度量;在此度量标准QED中,边界必须与正交。w ^-1个μ1个-μ2

  2. 标准的高斯方式:如果两个类都由高斯分布描述,则点属于类对数似然与。在边界上,属于第类和第类的可能性相等。写下来,简化,然后您将立即获得, QED。XķX-μķw ^-1个X-μķ1个2Xw ^-1个μ1个-μ2=CØñsŤ

  3. 费力但直观的方式。想象是一个单位矩阵,即所有类都是球形的。那么解决方案显而易见:边界仅与。如果类不是球形的,则可以通过球磨使它们成为球形。如果的特征分解为,则矩阵将解决问题(请参见此处的示例)。因此,在应用,边界与正交。如果采用该边界,则将其转换回w ^μ1个-μ2w ^w ^=üdü小号=d-1个/2ü小号小号μ1个-μ2小号-1个并询问它现在正交于什么,答案(作为练习左)是:到。插入的表达式,我们得到QED。小号小号μ1个-μ2小号


我尚未研究您的答案。似乎很复杂,可能是正确的。我在评论中概述的实用且更容易的“分散点,分类然后推断边界”方法又是什么?您的方法是否与结果可比(显然是正确的)?你怎么看?
ttnphns 2014年

1
@ttnphns:我的答案中唯一的技术部分(编号列表包含3个项目)提供了一些证明,可以安全地跳过。我相信其余的并不是特别复杂!也许我应该将该“额外”部分下移,作为附录?关于您的评论:我认为这是一种有效的方法,并且我喜欢SPSS“领土图”的ASCII外观。也许您可以将您的评论移到一个单独的答案中(并在此处给出SPSS地图的示例图片),我认为这对将来的参考会有所帮助。结果当然应该是等效的。
变形虫说恢复莫妮卡

@ttnphns:事实证明,Hastie等人。完全使用您在此描述的方法来绘制其图形,包括在OP中复制的图形。我发现一个脚注正好说明了这一点(并更新了我的答案,并在开头引用了它)。
变形虫说恢复莫妮卡

哇!很好的答案(3年后!)我想问一下您如何划分这个特定问题的细分?
Xavier Bourret Sicotte
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.