判别分析与逻辑回归


16

我发现了判别分析的一些优点,对此我也有疑问。所以:

当这些类很好地分开时,逻辑回归的参数估计出乎意料地不稳定。系数可能达到无穷大。LDA不会遭受此问题的困扰。

如果特征数量少并且每个类别中的预测变量的分布 近似正态,则线性判别模型比逻辑回归模型更加稳定。X

  1. 什么是稳定性,为什么重要?(如果逻辑回归能够很好地完成工作,那么为什么我要关心稳定性?)

当我们有两个以上的响应类时,LDA很流行,因为它还提供了数据的低维视图。

  1. 我只是不明白。LDA如何提供低维视图?
  2. 如果您可以命名更多利弊,那将是很好的。

3
您可能还想阅读有关此主题的其他问答(lda与logistic)。请搜索此站点。
ttnphns

Answers:


13

当这些类很好地分开时,逻辑回归的参数估计出乎意料地不稳定。系数可能达到无穷大。LDA不会遭受此问题的困扰。

如果存在可以完美预测二进制结果的协变量值,则逻辑回归算法(即Fisher评分)甚至不会收敛。如果您使用的是R或SAS,则会收到警告,提示您已计算出零概率和一个概率,并且该算法已崩溃。这是完全分离的极端情况,但是即使仅在很大程度而不是完美地分离数据,最大似然估计器也可能不存在,并且即使确实存在,估计也不可靠。结果拟合度根本不好。这个站点上有许多线程处理分离问题,因此请务必注意一下。

相比之下,费舍尔判别式通常不会遇到估计问题。如果协方差矩阵之间或之内的奇异矩阵仍然可能发生,但这种情况很少见。实际上,如果存在完全分离或准完全分离,那么更好,因为判别方法更有可能成功。

还值得一提的是,与流行的看法相反,LDA并非基于任何分配假设。由于集合估计量用于内部协方差矩阵,因此我们仅隐式要求总体协方差矩阵相等。在正常性,先验概率均等和分类错误成本的其他假设下,LDA在使分类错误概率最小化的意义上是最优的。

LDA如何提供低维视图?

对于两个总体和两个变量,更容易看到这一点。这是LDA在这种情况下如何工作的图形表示。请记住,我们正在寻找最大化可分离性的变量的线性组合。 在此处输入图片说明

因此,将数据投影到向量上,其方向更好地实现了这种分离。我们如何发现向量是线性代数中一个有趣的问题,我们基本上使瑞利商最大化,但现在暂时将其搁置一旁。如果将数据投影到该矢量上,则维数将从2减小为1。

具有两个以上总体和变量的一般情况以类似方式处理。如果尺寸较大,则可以使用更多的线性组合来减小尺寸,在这种情况下,数据会投影到平面或超平面上。当然,可以找到多少个线性组合有一个限制,而这个限制是由数据的原始维度导致的。如果用表示预测变量的数量,用表示总体的数量,那么结果表明该数量最多为pG G-1p

如果您可以命名更多利弊,那将是很好的。

但是,低维表示并不没有缺点,最重要的当然是信息的丢失。当数据是线性可分离的时,这不是问题,但是如果不是线性的,则信息的损失可能会很大,并且分类器的性能会很差。

在某些情况下,协方差矩阵的相等性可能不是成立的假设。您可以使用一个测试来确保,但是这些测试对于偏离正常性非常敏感,因此您需要做出这个附加假设并进行测试。如果发现协方差矩阵不相等的总体是正常的,则可以使用二次分类规则(QDA),但是我发现这是一个相当尴尬的规则,更不用说在高维度上违反直觉的规则了。

总的来说,LDA的主要优点是存在一个明确的解决方案及其计算方便性,而对于高级支持的分类技术(如SVM或神经网络)则不是这种情况。我们付出的代价是随之而来的一组假设,即线性可分离性和协方差矩阵的相等性。

希望这可以帮助。

编辑:我怀疑我声称我提到的特定案例的LDA不需要任何分布假设,除了协方差矩阵的相等性使我不愿投票。尽管如此,这仍然是正确的,所以让我更加具体。

如果我们让表示第一和第二总体的均值,并且表示合并的协方差矩阵, Fisher的判别式解决了这个问题X¯一世 一世=12小号汇集

最大值一种一种ŤX¯1-一种ŤX¯22一种Ť小号汇集一种=最大值一种一种Ťd2一种Ť小号汇集一种

这个问题的解决方案(最大)可以证明是

一种=小号汇集-1d=小号汇集-1X¯1-X¯2

这等效于您在正态性,相等协方差矩阵,错误分类成本和先验概率的假设下得出的LDA,对吗?好吧,是的,除了现在我们没有假设正常。

即使协方差矩阵不是真的相等,也没有什么可以阻止您在所有设置中使用上面的判别式。从预期的误分类成本(ECM)的角度来看,这可能不是最佳选择,但这是有监督的学习,因此您始终可以使用保留程序来评估其性能。

参考文献

Bishop,Christopher M.用于模式识别的神经网络。牛津大学出版社,1995年。

Johnson,Richard Arnold和Dean W. Wichern。应用多元统计分析。卷 4.新泽西州恩格尔伍德悬崖(Englewood Cliffs):学徒大厅(Prentice hall),1992年。


1
(我不是投票的用户)。为了使您的答案与弗兰克·哈雷尔的答案相符,在我看来,仍然需要假设所有变量都是连续的(否则,我认为瑞利商的最大值不是唯一的)。
user603 2015年

1
@ user603我没有在任何地方看到这种情况。无论如何,该解决方案最多只能确定一个常数。
JohnK

约翰,想象一下,只有2个类(因此只有一条判别线)具有相同,对称(椭圆形)分布,并且先验概率相等。然后,实际上我们不需要假设特定的正态分布,因为我们不需要任何pdf来将案例分配给类。在更复杂的设置中(例如3个以上的类),我们必须使用一些pdf,这通常是正常的。
ttnphns

1
w ^-1w ^

1
约翰,您的最后一句话是您,我同意。
ttnphns

10

与逻辑回归不同,LDA提出了严格的分布假设(所有预测变量的多元正态性)。尝试根据受试者的性别获取班级成员资格的后验概率,您将明白我的意思-概率将不准确。

ÿ=1β±±30

请参阅以获取更多信息。

请注意,如果多元正态成立,则根据贝叶斯定理,逻辑回归的假设成立。反之则不成立。

正态性(或至少是对称性)必须几乎保持方差和协方差才能“完成任务”。非多元正态分布的预测变量甚至会损害判别式提取阶段。


1
在我看来,LDA的分类(类预测)阶段需要特殊的正态性。在判别式提取(降维)阶段是没有必要的,但是,该阶段仍假定方差-协方差同质。(有趣的是,后一种假设可能会在分类时有所释放:您可以在此处对判别式使用单独的类内协方差。)
ttnphns 2015年

3
ŤŤ

2
Ť

2
是的SD会做出各种假设,并且没有鲁棒性。平均值在某种程度上使某些假设有意义。最小二乘,PCA和LDA 实际上做出了比许多人想象的更多的分布假设。
Frank Harrell 2015年

2
我不相信这种推理,我仍然相信不赞成投票的人是不公平的,但我对此事无权。但是,我提供的参考将告诉您相同的内容。
JohnK

0

当这些类很好地分开时,逻辑回归的参数估计出乎意料地不稳定。系数可能达到无穷大。LDA不会遭受此问题的困扰。

免责声明: 这里的内容完全缺乏数学上的严格性。

为了很好地拟合(非线性)函数,您需要在函数的“形状改变”的所有区域中进行观察。Logistic回归将S型函数拟合到数据:

在此处输入图片说明

在班级分开的情况下,所有观察将落在乙状结肠接近其渐近线(0和1)的两个“末端”。可以这么说,由于在这些区域中所有S形都“看起来相同”,因此难怪的拟合算法很难找到“正确的”。

让我们看一下用R glm()函数计算的两个(希望是有益的)示例。

情况1:两组在一定程度上重叠:

在此处输入图片说明

并且观察结果在拟合的乙状结肠的拐点周围很好地分布:

在此处输入图片说明

这些是拟合的参数,具有低标准误差:

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -17.21374    4.07741  -4.222 2.42e-05 ***
wgt           0.35111    0.08419   4.171 3.04e-05 ***

并且偏差也看起来不错:

    Null deviance: 138.629  on 99  degrees of freedom
Residual deviance:  30.213  on 98  degrees of freedom

情况2:两组完全分开:

在此处输入图片说明

观察结果几乎全部位于渐近线上。该glm()函数尽其所能,但抱怨数值为0或1,因为在其拐点附近根本没有观察到“使S形正确”的观察结果:

在此处输入图片说明

您可以通过注意估计参数的标准误差穿过屋顶来诊断问题:

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept)   -232.638 421264.847  -0.001        1
wgt              5.065   9167.439   0.001        1

同时偏差似乎可疑(因为观察结果确实很好地符合了渐近线):

    Null deviance: 1.3863e+02  on 99  degrees of freedom
Residual deviance: 4.2497e-10  on 98  degrees of freedom

至少在直观上,从这些考虑中应该清楚为什么“逻辑回归的参数估计出乎意料地不稳定”。


看看@Frank Harrell的答案,这显然与您不同意!并研究其链接和参考...
kjetil b halvorsen

@kjetilbhalvorsen我的主要观点是“令人惊讶的不稳定”拟合的直观说明。我删除了有关LDA的最后一句话。
Laryx Decidua
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.