LDA与感知器


9

我正在尝试了解LDA如何“适合”其他受监督的学习技术。我已经在这里阅读了有关LDA的一些LDA风格的帖子。我已经熟悉感知器,但是现在才学习LDA。

LDA如何“适应”监督学习算法系列?与其他方法相比,它的缺点可能是什么?它可能会更好地用于哪些方面?为什么要使用LDA,例如当人们只能使用感知器时?


1
我认为您可能对什么是监督学习感到困惑。K-means是一种无监督的学习聚类算法。Perceptron是一种监督学习分类算法,它试图找到一个将负观测值与正观测值分开的超平面。LDA是一种可用于监督分类的方法,但更常用于监督特征选择。有关LDA分类器的假设,请参见@AdamO的答案。
2013年

@Bitwise糟糕!我不知道为什么我把K-means放在那里。是的,它是一种无监督算法。我将在编辑中将其删除。
Creatron

@Bitwise关于您对LDA和Perceptron的看法,是的,这使我感到困惑。LDA尝试找到要向其投影数据的超平面,这样它可以使集群间差异最大化,同时使集群内差异最小。然后在边界上,有一个分类器。Perceptron做类似的事情,因为它还试图找到最佳超平面来使标记的数据脱节。那么,为什么要使用一个呢?
Creatron

Answers:


15

正如AdamO在上述评论中所建议的那样,您确实无法做得比阅读《统计学习的要素》(我将其称为HTF)的第4章更好,后者将LDA与其他线性分类方法进行了比较,给出了许多示例,并讨论了使用方法。 ttnphns指出,LDA作为PCA静脉的降维技术非常流行。

从分类的角度来看,我认为主要区别在于此。想象一下,您有两个类,并且想要将它们分开。每个类别都有一个概率密度函数。最好的情况是,如果您知道这些密度函数,因为您可以通过评估该点特定于类的密度来预测该点属于哪个类。

某些分类器通过找到类的密度函数的近似值来进行操作。LDA是其中之一;它假设密度是具有相同协方差矩阵的多元法线。这是一个很强的假设,但是如果它是正确的,那么您将获得一个很好的分类器。许多其他分类器也采用这种方法,但是要比假设正常性更灵活。例如,请参见HTF的第108页。

另一方面,HTF在第210页警告:

如果分类是最终目标,那么就不必学习单独的班级密度,并且实际上可能会产生误导。

另一种方法是简单地在两个类之间寻找边界,这就是感知器所做的。支持向量机是其更复杂的版本。这些方法还可以与使用称为内核化的技术向数据添加功能相结合。这不适用于LDA,因为它不能保留正态性,但是对于仅寻找分离超平面的分类器而言,这并不是问题。

LDA和寻找分离的超平面的分类器之间的区别就像普通统计中的t检验和某些非参数替代方案之间的区别。后者更健壮(例如,对于异常值而言),但是如果满足其假设,则前者是最佳的。

再说一遍:也许值得一提的是,有些人可能出于文化原因而使用LDA或逻辑回归等方法,这些方法可能会强制性地散发出ANOVA表,假设检验和使人放心的事情。LDA是费舍尔发明的;感知器最初是人类或动物神经元的模型,与统计数据无关。它也以其他方式起作用。有些人可能会喜欢支持向量机之类的方法,因为它们具有20世纪无法比拟的尖端时髦信条。这并不意味着它们会更好。(如果我没记错的,“黑客的机器学习”中讨论了一个很好的例子。)


“有些人可能更喜欢像支持向量机这样的方法,因为它们具有一种二十世纪的方法无法比拟的尖端时髦信条。” 大声笑!如此真实。顺便说一句,您有技巧可以非常清楚,准确地解释事情。谢谢!我需要一张“地图”,说明事物如何组合在一起,您提供了它。
Creatron

2

出于直觉,请考虑以下情况:

在此处输入图片说明

该线表示两个类别o和x之间的“最佳边界”。

LDA尝试找到一个使簇间方差最小化并最大化簇内方差最大化的超平面,然后使边界与该超平面正交。在这里,这可能不起作用,因为群集在同一方向上具有较大的方差。

另一方面,感知器可能有更好的机会找到一个好的分离超平面。

但是,在具有高斯分布的类的情况下,LDA可能会做得更好,因为感知器只能找到与数据一致的分离超平面,而不能保证它选择的是哪个超平面(可能有无限个数)一致的超平面)。但是,更复杂的感知器版本可以选择具有某些最佳属性的超平面,例如,最大化类之间的余量(这实际上是支持向量机所做的事情)。

还要注意,LDA和感知器都可以通过内核技巧扩展到非线性决策边界。


1

LDA与其他方法之间的最大区别之一是,它只是用于假设数据是正态分布的机器学习技术。在丢失数据或截断的情况下,这可能会很棒,您可以使用EM算法在非常奇怪和/或有趣的情况下使可能性最大化。请注意,因为模型错误指定(例如多模态数据)可能导致预测效果不佳,而K均值聚类会做得更好。EM还可以解释多峰数据,以检测潜在变量或LDA中的聚类。

例如,假设您要根据CD4计数来衡量5年内对AIDS进行阳性诊断的可能性。进一步假设您不知道会严重影响CD4计数并与进一步免疫抑制相关的特定生物标志物的价值。低于400的CD4计数低于大多数负担得起的检测方法的检测下限。EM算法使我​​们能够迭代地计算LDA和生物标志物分配以及未截短DF的CD4的均值和协方差。


谢谢亚当,尽管我现在变得更加困惑。:-) LDA如何更好/更糟,例如Perceptron或其他监督学习技术?关于EM算法,您使用它的用语是您可以使用 EM算法解决LDA,对吗?
Creatron

1
@AdamO,为清楚起见,我想补充一点,作为数据缩减技术的LDA 不依赖于正常性,就像PCA不一样。LDA内的正态性是以下假设:1)统计检验(Box's M检验等),2)分类。
ttnphns

@ttnphns假设正常意味着LDA是ML技术。ML是一件好事。我在示例中提到的特定警告使用ML解决了难题。这些解决方案只有通过复杂的仿真和/或BUGS才能实现。
AdamO

@TheGrapeBeyond LDA使两组的Mahal距离btn最大化。SLP(单层感知器或nnet)在特征空间中绘制超平面,从而创建最大的分类精度...我认为。阅读Tibs / Hastie书是一个很好的起点。我可能需要亲自复习一下。
AdamO
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.