我正在努力解决线性判别分析和Logistic回归之间的统计差异。我的理解是正确的,对于两类分类问题,LDA预测了两个法线密度函数(每个类一个),它们在它们相交处创建了线性边界,而逻辑回归仅预测了两类之间的对数奇数函数。创建一个边界,但不为每个类假设密度函数?
我正在努力解决线性判别分析和Logistic回归之间的统计差异。我的理解是正确的,对于两类分类问题,LDA预测了两个法线密度函数(每个类一个),它们在它们相交处创建了线性边界,而逻辑回归仅预测了两类之间的对数奇数函数。创建一个边界,但不为每个类假设密度函数?
Answers:
在我看来,您是正确的。Logistic回归确实没有在预测变量的空间中假设任何特定形状的密度,但是LDA确实如此。简而言之,这是两次分析之间的一些差异。
二进制逻辑回归(BLR)与线性判别分析(分为2组:也称为Fisher的LDA):
BLR:基于最大似然估计。LDA:基于最小二乘估计;等效于具有二进位预测和的线性回归(系数成比例且R平方= 1-Wilk的lambda)。
BLR:立即(有条件地观察和预测)(组成员的概率)(预测值本身被视为概率)。LDA:通过使用条件信息和边际信息的分类器(例如朴素贝叶斯)中度估计概率(predictand被视为合并的连续变量,判别式)。
BLR:不太急于预测指标的规模水平和分布形式。LDA:期望具有多元正态分布的区间水平。
BLR:对预测变量的组内协方差矩阵没有要求。LDA:组内协方差矩阵在总体上应相同。
BLR:该组可能有完全不同的。LDA:各组应具有相似的。
BLR:对异常值不太敏感。LDA:对异常值非常敏感。
BLR:较年轻的方法。LDA:较旧的方法。
BLR:通常首选,因为它不那么紧急/更可靠。LDA:在满足所有要求的情况下,其分类通常比BLR更好(渐近相对效率比其高3/2倍)。
让我在@ttnphns漂亮列表中添加一些点:
LDA后级成员资格概率的Bayes预测也遵循logistic曲线。
[Efron,B.与正常判别分析相比,逻辑回归的效率,J Am Stat Assoc,70,892-898(1975)。]
尽管该论文表明,如果满足LDA的假设,LDA的相对效率将优于LR(请参阅上面的Efron论文,@ tthnps的最后一点),根据实践中的统计学习元素,几乎没有任何区别。
[Hastie,T.和Tibshirani,R.和Friedman,J.统计学习的要素;数据挖掘,推理和预测Springer Verlag,纽约,2009年]
LDA相对效率的极大提高主要发生在绝对误差实际上可以忽略不计的渐近情况下。
[Harrell,FE和Lee,KL在多元正态下的判别分析和逻辑回归的判别比较,《生物统计学:生物医学,公共卫生和环境科学统计》,第333-343页(1985年)。
尽管我在实践中遇到了LDA似乎更好的高维小样本量情况(尽管显然没有满足多元正态性和均等协方差矩阵的假设)。
[ Beleites,C .; Geiger,K .;M. Kirsch; SB Sobottka;Schackert,G.&Salzer,R.拉曼光谱学对星形细胞瘤组织的分级:使用软参考信息.Anal Bioanal Chem,400,2801-2816(2011)。DOI:10.1007 / s00216-011-4985-4 ]
但是请注意,在我们的论文中,LR可能会遇到这样的问题:可以找到(接近)完美可分离性的方向。另一方面,LDA可能不太严重地过度拟合。
LDA的著名假设仅需证明最优性。如果不满足,则该过程仍然可以是一种很好的启发式方法。
在实践中,对我而言很重要,因为有时(或经常)处理的分类问题实际上根本不是那么明显的分类问题:LR可以轻松地使用引用具有中间级别成员资格的数据来完成。毕竟,这是一种回归技术。
[请参见上面链接的论文]
您可能会说,LR比LDA更加关注类边界附近的示例,而基本上忽略了分布“背面”的情况。
这也解释了为什么它对异常值(即背面的异常值)的敏感性不如LDA。
(支持向量机将是一个分类器,它将朝着这个方向发展到最后:在这里,除了边界情况以外的所有情况都将被忽略)