在线性,二次方和费舍尔判别分析上,来源似乎存在分歧


10

我正在研究判别分析,但在调和几种不同的解释时遇到了困难。我相信我一定会错过一些东西,因为我以前从未遇到过这种(似乎)差异水平。话虽如此,有关该网站上判别分析的问题数量似乎证明了其复杂性。

LDA和QDA几类

我的主要教科书是强生公司的应用多元统计分析(AMSA)和基于此的老师的笔记。我将忽略两组设置,因为我相信此设置中的简化公式至少会引起一些混乱。根据此来源,LDA和QDA被定义为基于预期的误分类成本(ECM)的分类规则的参数(假设多元正态性)扩展。ECM对将新观察值x划分到任何组的条件期望成本求和(包括误分类成本和先验概率),我们选择将其最小化的分类区域。其中

ECM=i=1groupspi[k=1; ikgroupsP(k|i)c(k|i)]
P(k|i)=P(classifying item as group k | item is group i)=Rkfi(x)dxfi(x)是人口密度,Rk是k组中的一组观测值,c是成本,pi是先验概率。然后可以将新的观测值分配给内部项最小或等效的内部项p_k f_k(\ boldsymbol {x})剩余部分pkfk(x)最大的组

假设该分类规则等效于“使后验概率最大化的分类规则”(原文为AMSA),我只能假定是我所提到的贝叶斯方法。它是否正确?ECM是一种较旧的方法,因为我从未见过它在其他任何地方发生。

对于正常群体,此规则简化为二次判别分数:。

diQ(x)=12log(Σi)12(xμi)TΣi1(xμi)+log(pi)

这似乎等同于第110页的统计学习元素(ESL)公式4.12,尽管他们将其描述为二次判别函数而不是得分。而且,它们是通过多元密度的对数比(4.9)到达的。这是贝叶斯方法的另一个名字吗?

当我们假设等方差相等时,该公式可进一步简化为线性判别分数

di(x)=μiTΣ1x12μiTΣ1μi+log(pi)

此公式与ESL(4.10)的确不同,后者将第一项取反:。ESL版本也是R中的统计学习中列出的版本。此外,在SAS输出在AMSA呈现的线性判别函数中描述由恒定的和系数向量,似乎与ESL版本一致。xTΣ1μk0.5X¯jTCOV1X¯j+ln priorjCOV1X¯j

这种差异背后的原因可能是什么?

判别和费舍尔方法

注意:如果这个问题太大,我将删除此部分并打开一个新问题,但这是在上一节的基础上建立的。无论如何,我都对文本墙表示歉意,尽管我尽力将其结构化,但是我确信我对这种方法的困惑导致了一些相当奇怪的逻辑跳跃。

AMSA的书继续描述了费舍尔的方法,也适用于几个小组。然而,ttnphns指出 时间即FDA仅仅是LDA两组。那么这个多类FDA是什么?也许FDA可以有多种含义?

AMSA将Fisher的判别式描述为的特征向量,该向量使比率。线性组合然后成为样本判别式(其中存在)。对于分类,我们选择,其中r是我们要使用的判别式的数量。如果我们使用所有判别式,则此规则将等效于线性判别函数。W1Ba^TBa^a^TWa^e^ixmin(g1,p)j=1r[e^jT(xx¯k)]2

关于LDA的许多解释似乎描述了AMSA书中称为FDA的方法,即从可变性之间/之内开始。如果不是BW矩阵的分解,那么FDA意味着什么?

这是教科书第一次提到判别分析的降维方面,而该站点上的一些 答案都强调了该技术的两阶段性,但是在两组设置中并不清楚,因为只有1个判别。考虑到以上针对多类LDA和QDA的公式,对我而言,判别式出现的地方仍然不明显。

这个评论特别让我感到困惑,指出贝叶斯分类实际上可以在原始变量上执行。但是,如果FDA和LDA在书中和此处指出的在数学上等效,那么维不是功能固有的吗?我相信这是最后一个链接要解决的问题,但是我不确定。di

我老师的课程笔记继续说明FDA本质上是规范相关分析的一种形式。我只发现1个其他来源其中谈到这方面,但它似乎再次被紧密联系在一起的分解之间和变化中的费舍尔方法。SAS在其LDA / QDA程序(DISCRIM)中显示了一个结果,该结果显然与Fisher的方法(https://stats.stackexchange.com/a/105116/62518)有关。但是,SAS的FDA选项(CANDISC)实际上执行了规范相关,而没有提供这些所谓的Fisher分级系数。它确实提供了原始规范系数,我相信这些系数等于通过lda(MASS)获得的R的W-1B特征向量(https://support.sas.com/documentation/cdl/zh-CN/statug/63033/HTML/default/viewer.htm#statug_candisc_sect019.htm)。分类系数似乎是从我在LDA和QDA部分中描述的判别函数获得的(因为每个人口有1个函数,因此我们选择最大的一个)。

我将不胜感激,感谢所有澄清或提及可帮助我从树上看森林的资料来源。我感到困惑的主要原因似乎是,不同的教科书使用不同的名称来调用方法,或者在不承认其他可能性的情况下给出了数学上的细微变化,尽管考虑到AMSA书的年代,我认为这不足为奇。


If we use all the discriminants this rule would be equivalent to the linear discriminant function不清楚 “区别的”和“区别的功能”是同义词。您可以使用所有判别式,也可以只使用几个最强/重要的。我没有看过AMSA的书,但对于作者来说,我怀疑FDA = LDA。实际上,我个人认为“ Fisher LDA”将是一个多余的,不必要的术语。
ttnphns

在“添加”到这个答案约LDA分类我注意到,计算“Fisher线性分类函数”,从变量直接等同于Extract the discriminants -> classify by them all (using Bayes approach, as usual)时,如通常由默认情况下,合并的判别式的类内协方差矩阵中的分类使用。
ttnphns

实际上,“ Fisher的线性分类函数”是在不进行特征分解W^-1B然后进行“贝叶斯”处理的情况下进行LDA的一种方法。它是等效的,但灵活性较差(您不能只选择几个判别式,也不能在分类时在协方差矩阵中使用单独的等)。
ttnphns

我仍在消化您的答案和链接(谢谢),但是:1)以下是AMSA的摘录,其中阐明了“区别因素”和“区别分数” i.imgur.com/7W7vc8u.jpg?1我用过这些术语“得分”和“功能”可以互换。3)在同一节录中,您可以看到AMSA书中提到分解是获取Fisher判别式的一种方法。它是这里介绍的方法费舍尔的方法似乎比仅仅导致一个很难判别函数/得分线性/二次方法更灵活..W1B
泽尼特

对于我而言,Zenit判别分数是(规范)判别函数的值。我只能比较你引用的公式和我所知道的SPSS中的标准判别式是如何计算的。我建议您进行计算并比较结果并发表结论。另外,我怀疑不同的文本可能会以不同的方式应用标签“ Fisher's”。
ttnphns

Answers:


8

我仅解决问题的一个方面,并且无需代数即可直观地完成。

如果类具有相同的方差-协方差矩阵,并且仅因它们的质心在维空间中的移动而不同,则它们在 “子空间”中是完全线性可分离的。这就是LDA所做的。想象一下,在变量的空间中有三个相同的椭圆体。您必须使用来自所有变量的信息才能预测类成员身份而不会出现错误。但是由于这些云的大小和方向都是相同的,因此可以通过常见变换将其重新缩放为单位半径的球。然后gpq=min(g1,p)V1,V2,V3q=g1=2独立维度将足以像以前一样准确地预测班级成员身份。这些维度称为判别函数。具有3个相同大小的点球,您只需要2条轴线,并知道球的中心坐标即可正确分配每个点。D1,D2

在此处输入图片说明

判别式是不相关的变量,它们的类内协方差矩阵最好是同一性(球)。判别式形成原始变量空间的子空间-它们是它们的线性组合。但是,它们不是旋转轴(类似于PCA):在原始变量空间中,判别式为轴并不相互正交

因此,在使用用于分类的类内方差-协方差LDA的同质性的假设下,所有现有的判别式都不比立即通过原始变量进行分类更糟糕。但是您不必使用所有的判别式。您可能只使用最强/具有统计意义的第一个。这样,您丢失的信息最少,分类失败的机会也将最小。从这个角度看,LDA是类似于PCA的数据缩减,仅受监督。m<q

请注意,假设是同质的(+多元正态性),并且您打算使用但所有分类中的判别式,则可以绕开判别式本身的提取(这涉及广义特征问题),并计算所谓的“费舍尔分类函数”从直接的变量,以进行分类他们,与相同的结果。因此,当类的形状相同时,我们可以将输入变量或 Fisher函数或判别式视为所有等效的“分类器”集。但是,在许多方面,判别更为方便。gpgq1

由于通常实际上这些类并不是“相同的椭圆”,因此,如果您使用所有原始变量进行贝叶斯分类,则判别式的分类要差一些。例如,在此图上,两个椭球不平行。并且可以从视觉上领会到,现有的单个判别式不足以对两个变量允许的准确分类。这样,QDA(二次判别分析)将比LDA更好地逼近一步。在LDA和QDA之间进行操作的一种实用方法是使用LDA判别式,但在分类时使用它们观察到的独立类别协方差矩阵(请参阅请参见qp),而不是它们的合并矩阵(即身份)。

(是,LDA可以被看作是密切相关的,甚至,MANOVA和典型相关分析或降秩多元回归的具体情况- 。)


1重要的术语说明。在某些文本中, Fisher的分类函数可以称为“ Fisher的判别函数”,它可能与的判别函数混淆,后者是规范的判别函数(即,在本征分解中获得的)gqW1B)。为了清楚起见,我建议说“费舍尔分类函数”与“规范判别函数”(简称“判别函数”)。在现代的理解中,LDA是典型的线性判别分析。至少据我所知,“ Fisher的判别分析”是具有2类的LDA(其中单个规范判别不可避免地与Fisher的分类函数相同),或者广义上讲,是在多类环境中计算Fisher的分类函数。


重新术语:LDA上的Wikipedia文章(en.wikipedia.org/wiki/Linear_discriminant_analysis)指出:“尽管Fisher的原始判别词[1]实际上描述了一个稍有不同的判别词,但Fisher的线性判别词和LDA经常互换使用。不要对LDA做一些假设,例如正态分布的类别或相等的类别协方差。” 基于此,如果组协方差“相同”,则2类LDA似乎是“ FDA”的特例。@ttnphns:这是正确的吗?
Laryx Decidua

@LaryxDecidua,在这种情况下,我不确定百分百的术语,而且我也有不同的看法。我根本不使用“ Fisher's DA”一词。但是,当有人问时,我想起“ FDA是具有2类的LDA”。
ttnphns

谢谢,对我来说,最有趣的方面是,根据Wikipedia所说,“ FDA” 并不具有正常性,而“ LDA”(和QDA)却具有正常性。也许“ FDA是LDA的2类,不假设其正常或同方”。
Laryx Decidua
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.