我正在研究判别分析,但在调和几种不同的解释时遇到了困难。我相信我一定会错过一些东西,因为我以前从未遇到过这种(似乎)差异水平。话虽如此,有关该网站上判别分析的问题数量似乎证明了其复杂性。
LDA和QDA几类
我的主要教科书是强生公司的应用多元统计分析(AMSA)和基于此的老师的笔记。我将忽略两组设置,因为我相信此设置中的简化公式至少会引起一些混乱。根据此来源,LDA和QDA被定义为基于预期的误分类成本(ECM)的分类规则的参数(假设多元正态性)扩展。ECM对将新观察值x划分到任何组的条件期望成本求和(包括误分类成本和先验概率),我们选择将其最小化的分类区域。其中
假设该分类规则等效于“使后验概率最大化的分类规则”(原文为AMSA),我只能假定是我所提到的贝叶斯方法。它是否正确?ECM是一种较旧的方法,因为我从未见过它在其他任何地方发生。
对于正常群体,此规则简化为二次判别分数:。
这似乎等同于第110页的统计学习元素(ESL)公式4.12,尽管他们将其描述为二次判别函数而不是得分。而且,它们是通过多元密度的对数比(4.9)到达的。这是贝叶斯方法的另一个名字吗?
当我们假设等方差相等时,该公式可进一步简化为线性判别分数。
此公式与ESL(4.10)的确不同,后者将第一项取反:。ESL版本也是R中的统计学习中列出的版本。此外,在SAS输出在AMSA呈现的线性判别函数中描述由恒定的和系数向量,似乎与ESL版本一致。
这种差异背后的原因可能是什么?
判别和费舍尔方法
注意:如果这个问题太大,我将删除此部分并打开一个新问题,但这是在上一节的基础上建立的。无论如何,我都对文本墙表示歉意,尽管我尽力将其结构化,但是我确信我对这种方法的困惑导致了一些相当奇怪的逻辑跳跃。
AMSA的书继续描述了费舍尔的方法,也适用于几个小组。然而,ttnphns指出多 时间即FDA仅仅是LDA两组。那么这个多类FDA是什么?也许FDA可以有多种含义?
AMSA将Fisher的判别式描述为的特征向量,该向量使比率。线性组合然后成为样本判别式(其中存在)。对于分类,我们选择,其中r是我们要使用的判别式的数量。如果我们使用所有判别式,则此规则将等效于线性判别函数。
关于LDA的许多解释似乎描述了AMSA书中称为FDA的方法,即从可变性之间/之内开始。如果不是BW矩阵的分解,那么FDA意味着什么?
这是教科书第一次提到判别分析的降维方面,而该站点上的一些 答案都强调了该技术的两阶段性,但是在两组设置中并不清楚,因为只有1个判别。考虑到以上针对多类LDA和QDA的公式,对我而言,判别式出现的地方仍然不明显。
这个评论特别让我感到困惑,指出贝叶斯分类实际上可以在原始变量上执行。但是,如果FDA和LDA在书中和此处指出的在数学上等效,那么维不是功能固有的吗?我相信这是最后一个链接要解决的问题,但是我不确定。
我老师的课程笔记继续说明FDA本质上是规范相关分析的一种形式。我只发现1个其他来源其中谈到这方面,但它似乎再次被紧密联系在一起的分解之间和变化中的费舍尔方法。SAS在其LDA / QDA程序(DISCRIM)中显示了一个结果,该结果显然与Fisher的方法(https://stats.stackexchange.com/a/105116/62518)有关。但是,SAS的FDA选项(CANDISC)实际上执行了规范相关,而没有提供这些所谓的Fisher分级系数。它确实提供了原始规范系数,我相信这些系数等于通过lda(MASS)获得的R的W-1B特征向量(https://support.sas.com/documentation/cdl/zh-CN/statug/63033/HTML/default/viewer.htm#statug_candisc_sect019.htm)。分类系数似乎是从我在LDA和QDA部分中描述的判别函数获得的(因为每个人口有1个函数,因此我们选择最大的一个)。
我将不胜感激,感谢所有澄清或提及可帮助我从树上看森林的资料来源。我感到困惑的主要原因似乎是,不同的教科书使用不同的名称来调用方法,或者在不承认其他可能性的情况下给出了数学上的细微变化,尽管考虑到AMSA书的年代,我认为这不足为奇。
W^-1B
然后进行“贝叶斯”处理的情况下进行LDA的一种方法。它是等效的,但灵活性较差(您不能只选择几个判别式,也不能在分类时在协方差矩阵中使用单独的等)。
If we use all the discriminants this rule would be equivalent to the linear discriminant function
不清楚 “区别的”和“区别的功能”是同义词。您可以使用所有判别式,也可以只使用几个最强/重要的。我没有看过AMSA的书,但对于作者来说,我怀疑FDA = LDA。实际上,我个人认为“ Fisher LDA”将是一个多余的,不必要的术语。