我发现了判别分析的一些优点,对此我也有疑问。所以:
当这些类很好地分开时,逻辑回归的参数估计出乎意料地不稳定。系数可能达到无穷大。LDA不会遭受此问题的困扰。
如果特征数量少并且每个类别中的预测变量的分布 近似正态,则线性判别模型比逻辑回归模型更加稳定。
- 什么是稳定性,为什么重要?(如果逻辑回归能够很好地完成工作,那么为什么我要关心稳定性?)
当我们有两个以上的响应类时,LDA很流行,因为它还提供了数据的低维视图。
- 我只是不明白。LDA如何提供低维视图?
- 如果您可以命名更多利弊,那将是很好的。
我发现了判别分析的一些优点,对此我也有疑问。所以:
当这些类很好地分开时,逻辑回归的参数估计出乎意料地不稳定。系数可能达到无穷大。LDA不会遭受此问题的困扰。
如果特征数量少并且每个类别中的预测变量的分布 近似正态,则线性判别模型比逻辑回归模型更加稳定。
当我们有两个以上的响应类时,LDA很流行,因为它还提供了数据的低维视图。
Answers:
当这些类很好地分开时,逻辑回归的参数估计出乎意料地不稳定。系数可能达到无穷大。LDA不会遭受此问题的困扰。
如果存在可以完美预测二进制结果的协变量值,则逻辑回归算法(即Fisher评分)甚至不会收敛。如果您使用的是R或SAS,则会收到警告,提示您已计算出零概率和一个概率,并且该算法已崩溃。这是完全分离的极端情况,但是即使仅在很大程度而不是完美地分离数据,最大似然估计器也可能不存在,并且即使确实存在,估计也不可靠。结果拟合度根本不好。这个站点上有许多线程处理分离问题,因此请务必注意一下。
相比之下,费舍尔判别式通常不会遇到估计问题。如果协方差矩阵之间或之内的奇异矩阵仍然可能发生,但这种情况很少见。实际上,如果存在完全分离或准完全分离,那么更好,因为判别方法更有可能成功。
还值得一提的是,与流行的看法相反,LDA并非基于任何分配假设。由于集合估计量用于内部协方差矩阵,因此我们仅隐式要求总体协方差矩阵相等。在正常性,先验概率均等和分类错误成本的其他假设下,LDA在使分类错误概率最小化的意义上是最优的。
LDA如何提供低维视图?
对于两个总体和两个变量,更容易看到这一点。这是LDA在这种情况下如何工作的图形表示。请记住,我们正在寻找最大化可分离性的变量的线性组合。

因此,将数据投影到向量上,其方向更好地实现了这种分离。我们如何发现向量是线性代数中一个有趣的问题,我们基本上使瑞利商最大化,但现在暂时将其搁置一旁。如果将数据投影到该矢量上,则维数将从2减小为1。
具有两个以上总体和变量的一般情况以类似方式处理。如果尺寸较大,则可以使用更多的线性组合来减小尺寸,在这种情况下,数据会投影到平面或超平面上。当然,可以找到多少个线性组合有一个限制,而这个限制是由数据的原始维度导致的。如果用表示预测变量的数量,用表示总体的数量,那么结果表明该数量最多为。
如果您可以命名更多利弊,那将是很好的。
但是,低维表示并不没有缺点,最重要的当然是信息的丢失。当数据是线性可分离的时,这不是问题,但是如果不是线性的,则信息的损失可能会很大,并且分类器的性能会很差。
在某些情况下,协方差矩阵的相等性可能不是成立的假设。您可以使用一个测试来确保,但是这些测试对于偏离正常性非常敏感,因此您需要做出这个附加假设并进行测试。如果发现协方差矩阵不相等的总体是正常的,则可以使用二次分类规则(QDA),但是我发现这是一个相当尴尬的规则,更不用说在高维度上违反直觉的规则了。
总的来说,LDA的主要优点是存在一个明确的解决方案及其计算方便性,而对于高级支持的分类技术(如SVM或神经网络)则不是这种情况。我们付出的代价是随之而来的一组假设,即线性可分离性和协方差矩阵的相等性。
希望这可以帮助。
编辑:我怀疑我声称我提到的特定案例的LDA不需要任何分布假设,除了协方差矩阵的相等性使我不愿投票。尽管如此,这仍然是正确的,所以让我更加具体。
如果我们让表示第一和第二总体的均值,并且表示合并的协方差矩阵, Fisher的判别式解决了这个问题
这个问题的解决方案(最大)可以证明是
这等效于您在正态性,相等协方差矩阵,错误分类成本和先验概率的假设下得出的LDA,对吗?好吧,是的,除了现在我们没有假设正常。
即使协方差矩阵不是真的相等,也没有什么可以阻止您在所有设置中使用上面的判别式。从预期的误分类成本(ECM)的角度来看,这可能不是最佳选择,但这是有监督的学习,因此您始终可以使用保留程序来评估其性能。
参考文献
Bishop,Christopher M.用于模式识别的神经网络。牛津大学出版社,1995年。
Johnson,Richard Arnold和Dean W. Wichern。应用多元统计分析。卷 4.新泽西州恩格尔伍德悬崖(Englewood Cliffs):学徒大厅(Prentice hall),1992年。
与逻辑回归不同,LDA提出了严格的分布假设(所有预测变量的多元正态性)。尝试根据受试者的性别获取班级成员资格的后验概率,您将明白我的意思-概率将不准确。
请参阅此以获取更多信息。
请注意,如果多元正态成立,则根据贝叶斯定理,逻辑回归的假设成立。反之则不成立。
正态性(或至少是对称性)必须几乎保持方差和协方差才能“完成任务”。非多元正态分布的预测变量甚至会损害判别式提取阶段。
当这些类很好地分开时,逻辑回归的参数估计出乎意料地不稳定。系数可能达到无穷大。LDA不会遭受此问题的困扰。
免责声明: 这里的内容完全缺乏数学上的严格性。
为了很好地拟合(非线性)函数,您需要在函数的“形状改变”的所有区域中进行观察。Logistic回归将S型函数拟合到数据:
在班级分开的情况下,所有观察将落在乙状结肠接近其渐近线(0和1)的两个“末端”。可以这么说,由于在这些区域中所有S形都“看起来相同”,因此难怪的拟合算法很难找到“正确的”。
让我们看一下用R glm()函数计算的两个(希望是有益的)示例。
情况1:两组在一定程度上重叠:
并且观察结果在拟合的乙状结肠的拐点周围很好地分布:
这些是拟合的参数,具有低标准误差:
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -17.21374 4.07741 -4.222 2.42e-05 ***
wgt 0.35111 0.08419 4.171 3.04e-05 ***
并且偏差也看起来不错:
Null deviance: 138.629 on 99 degrees of freedom
Residual deviance: 30.213 on 98 degrees of freedom
情况2:两组完全分开:
观察结果几乎全部位于渐近线上。该glm()函数尽其所能,但抱怨数值为0或1,因为在其拐点附近根本没有观察到“使S形正确”的观察结果:
您可以通过注意估计参数的标准误差穿过屋顶来诊断问题:
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -232.638 421264.847 -0.001 1
wgt 5.065 9167.439 0.001 1
同时偏差似乎可疑(因为观察结果确实很好地符合了渐近线):
Null deviance: 1.3863e+02 on 99 degrees of freedom
Residual deviance: 4.2497e-10 on 98 degrees of freedom
至少在直观上,从这些考虑中应该清楚为什么“逻辑回归的参数估计出乎意料地不稳定”。