当这些类很好地分开时,逻辑回归的参数估计出乎意料地不稳定。系数可能达到无穷大。LDA不会遭受此问题的困扰。
如果存在可以完美预测二进制结果的协变量值,则逻辑回归算法(即Fisher评分)甚至不会收敛。如果您使用的是R或SAS,则会收到警告,提示您已计算出零概率和一个概率,并且该算法已崩溃。这是完全分离的极端情况,但是即使仅在很大程度而不是完美地分离数据,最大似然估计器也可能不存在,并且即使确实存在,估计也不可靠。结果拟合度根本不好。这个站点上有许多线程处理分离问题,因此请务必注意一下。
相比之下,费舍尔判别式通常不会遇到估计问题。如果协方差矩阵之间或之内的奇异矩阵仍然可能发生,但这种情况很少见。实际上,如果存在完全分离或准完全分离,那么更好,因为判别方法更有可能成功。
还值得一提的是,与流行的看法相反,LDA并非基于任何分配假设。由于集合估计量用于内部协方差矩阵,因此我们仅隐式要求总体协方差矩阵相等。在正常性,先验概率均等和分类错误成本的其他假设下,LDA在使分类错误概率最小化的意义上是最优的。
LDA如何提供低维视图?
对于两个总体和两个变量,更容易看到这一点。这是LDA在这种情况下如何工作的图形表示。请记住,我们正在寻找最大化可分离性的变量的线性组合。
因此,将数据投影到向量上,其方向更好地实现了这种分离。我们如何发现向量是线性代数中一个有趣的问题,我们基本上使瑞利商最大化,但现在暂时将其搁置一旁。如果将数据投影到该矢量上,则维数将从2减小为1。
具有两个以上总体和变量的一般情况以类似方式处理。如果尺寸较大,则可以使用更多的线性组合来减小尺寸,在这种情况下,数据会投影到平面或超平面上。当然,可以找到多少个线性组合有一个限制,而这个限制是由数据的原始维度导致的。如果用表示预测变量的数量,用表示总体的数量,那么结果表明该数量最多为。pG 分钟(克− 1 ,p )
如果您可以命名更多利弊,那将是很好的。
但是,低维表示并不没有缺点,最重要的当然是信息的丢失。当数据是线性可分离的时,这不是问题,但是如果不是线性的,则信息的损失可能会很大,并且分类器的性能会很差。
在某些情况下,协方差矩阵的相等性可能不是成立的假设。您可以使用一个测试来确保,但是这些测试对于偏离正常性非常敏感,因此您需要做出这个附加假设并进行测试。如果发现协方差矩阵不相等的总体是正常的,则可以使用二次分类规则(QDA),但是我发现这是一个相当尴尬的规则,更不用说在高维度上违反直觉的规则了。
总的来说,LDA的主要优点是存在一个明确的解决方案及其计算方便性,而对于高级支持的分类技术(如SVM或神经网络)则不是这种情况。我们付出的代价是随之而来的一组假设,即线性可分离性和协方差矩阵的相等性。
希望这可以帮助。
编辑:我怀疑我声称我提到的特定案例的LDA不需要任何分布假设,除了协方差矩阵的相等性使我不愿投票。尽管如此,这仍然是正确的,所以让我更加具体。
如果我们让表示第一和第二总体的均值,并且表示合并的协方差矩阵, Fisher的判别式解决了这个问题X¯一世,我 = 1 ,2小号汇集
最大值一种(一个ŤX¯1− aŤX¯2)2一种Ť小号汇集一种= 最大一种(一个Ťd)2一种Ť小号汇集一种
这个问题的解决方案(最大)可以证明是
a = S− 1汇集d = S− 1汇集(x¯1− x¯2)
这等效于您在正态性,相等协方差矩阵,错误分类成本和先验概率的假设下得出的LDA,对吗?好吧,是的,除了现在我们没有假设正常。
即使协方差矩阵不是真的相等,也没有什么可以阻止您在所有设置中使用上面的判别式。从预期的误分类成本(ECM)的角度来看,这可能不是最佳选择,但这是有监督的学习,因此您始终可以使用保留程序来评估其性能。
参考文献
Bishop,Christopher M.用于模式识别的神经网络。牛津大学出版社,1995年。
Johnson,Richard Arnold和Dean W. Wichern。应用多元统计分析。卷 4.新泽西州恩格尔伍德悬崖(Englewood Cliffs):学徒大厅(Prentice hall),1992年。