我正在尝试了解LDA如何“适合”其他受监督的学习技术。我已经在这里阅读了有关LDA的一些LDA风格的帖子。我已经熟悉感知器,但是现在才学习LDA。
LDA如何“适应”监督学习算法系列?与其他方法相比,它的缺点可能是什么?它可能会更好地用于哪些方面?为什么要使用LDA,例如当人们只能使用感知器时?
我正在尝试了解LDA如何“适合”其他受监督的学习技术。我已经在这里阅读了有关LDA的一些LDA风格的帖子。我已经熟悉感知器,但是现在才学习LDA。
LDA如何“适应”监督学习算法系列?与其他方法相比,它的缺点可能是什么?它可能会更好地用于哪些方面?为什么要使用LDA,例如当人们只能使用感知器时?
Answers:
正如AdamO在上述评论中所建议的那样,您确实无法做得比阅读《统计学习的要素》(我将其称为HTF)的第4章更好,后者将LDA与其他线性分类方法进行了比较,给出了许多示例,并讨论了使用方法。 ttnphns指出,LDA作为PCA静脉的降维技术非常流行。
从分类的角度来看,我认为主要区别在于此。想象一下,您有两个类,并且想要将它们分开。每个类别都有一个概率密度函数。最好的情况是,如果您知道这些密度函数,因为您可以通过评估该点特定于类的密度来预测该点属于哪个类。
某些分类器通过找到类的密度函数的近似值来进行操作。LDA是其中之一;它假设密度是具有相同协方差矩阵的多元法线。这是一个很强的假设,但是如果它是正确的,那么您将获得一个很好的分类器。许多其他分类器也采用这种方法,但是要比假设正常性更灵活。例如,请参见HTF的第108页。
另一方面,HTF在第210页警告:
如果分类是最终目标,那么就不必学习单独的班级密度,并且实际上可能会产生误导。
另一种方法是简单地在两个类之间寻找边界,这就是感知器所做的。支持向量机是其更复杂的版本。这些方法还可以与使用称为内核化的技术向数据添加功能相结合。这不适用于LDA,因为它不能保留正态性,但是对于仅寻找分离超平面的分类器而言,这并不是问题。
LDA和寻找分离的超平面的分类器之间的区别就像普通统计中的t检验和某些非参数替代方案之间的区别。后者更健壮(例如,对于异常值而言),但是如果满足其假设,则前者是最佳的。
再说一遍:也许值得一提的是,有些人可能出于文化原因而使用LDA或逻辑回归等方法,这些方法可能会强制性地散发出ANOVA表,假设检验和使人放心的事情。LDA是费舍尔发明的;感知器最初是人类或动物神经元的模型,与统计数据无关。它也以其他方式起作用。有些人可能会喜欢支持向量机之类的方法,因为它们具有20世纪无法比拟的尖端时髦信条。这并不意味着它们会更好。(如果我没记错的话,“黑客的机器学习”中讨论了一个很好的例子。)
出于直觉,请考虑以下情况:
该线表示两个类别o和x之间的“最佳边界”。
LDA尝试找到一个使簇间方差最小化并最大化簇内方差最大化的超平面,然后使边界与该超平面正交。在这里,这可能不起作用,因为群集在同一方向上具有较大的方差。
另一方面,感知器可能有更好的机会找到一个好的分离超平面。
但是,在具有高斯分布的类的情况下,LDA可能会做得更好,因为感知器只能找到与数据一致的分离超平面,而不能保证它选择的是哪个超平面(可能有无限个数)一致的超平面)。但是,更复杂的感知器版本可以选择具有某些最佳属性的超平面,例如,最大化类之间的余量(这实际上是支持向量机所做的事情)。
还要注意,LDA和感知器都可以通过内核技巧扩展到非线性决策边界。
LDA与其他方法之间的最大区别之一是,它只是用于假设数据是正态分布的机器学习技术。在丢失数据或截断的情况下,这可能会很棒,您可以使用EM算法在非常奇怪和/或有趣的情况下使可能性最大化。请注意,因为模型错误指定(例如多模态数据)可能导致预测效果不佳,而K均值聚类会做得更好。EM还可以解释多峰数据,以检测潜在变量或LDA中的聚类。
例如,假设您要根据CD4计数来衡量5年内对AIDS进行阳性诊断的可能性。进一步假设您不知道会严重影响CD4计数并与进一步免疫抑制相关的特定生物标志物的价值。低于400的CD4计数低于大多数负担得起的检测方法的检测下限。EM算法使我们能够迭代地计算LDA和生物标志物分配以及未截短DF的CD4的均值和协方差。