LDA与感知器

9

我正在尝试了解LDA如何“适合”其他受监督的学习技术。我已经在这里阅读了有关LDA的一些LDA风格的帖子。我已经熟悉感知器，但是现在才学习LDA。

LDA如何“适应”监督学习算法系列？与其他方法相比，它的缺点可能是什么？它可能会更好地用于哪些方面？为什么要使用LDA，例如当人们只能使用感知器时？

— Creatron
source

1

我认为您可能对什么是监督学习感到困惑。K-means是一种无监督的学习聚类算法。Perceptron是一种监督学习分类算法，它试图找到一个将负观测值与正观测值分开的超平面。LDA是一种可用于监督分类的方法，但更常用于监督特征选择。有关LDA分类器的假设，请参见@AdamO的答案。

— 2013年

@Bitwise糟糕！我不知道为什么我把K-means放在那里。是的，它是一种无监督算法。我将在编辑中将其删除。

— Creatron

@Bitwise关于您对LDA和Perceptron的看法，是的，这使我感到困惑。LDA尝试找到要向其投影数据的超平面，这样它可以使集群间差异最大化，同时使集群内差异最小。然后在边界上，有一个分类器。Perceptron做类似的事情，因为它还试图找到最佳超平面来使标记的数据脱节。那么，为什么要使用一个呢？

— Creatron

15

正如AdamO在上述评论中所建议的那样，您确实无法做得比阅读《统计学习的要素》（我将其称为HTF）的第4章更好，后者将LDA与其他线性分类方法进行了比较，给出了许多示例，并讨论了使用方法。 ttnphns指出，LDA作为PCA静脉的降维技术非常流行。

从分类的角度来看，我认为主要区别在于此。想象一下，您有两个类，并且想要将它们分开。每个类别都有一个概率密度函数。最好的情况是，如果您知道这些密度函数，因为您可以通过评估该点特定于类的密度来预测该点属于哪个类。

某些分类器通过找到类的密度函数的近似值来进行操作。LDA是其中之一；它假设密度是具有相同协方差矩阵的多元法线。这是一个很强的假设，但是如果它是正确的，那么您将获得一个很好的分类器。许多其他分类器也采用这种方法，但是要比假设正常性更灵活。例如，请参见HTF的第108页。

另一方面，HTF在第210页警告：

如果分类是最终目标，那么就不必学习单独的班级密度，并且实际上可能会产生误导。

另一种方法是简单地在两个类之间寻找边界，这就是感知器所做的。支持向量机是其更复杂的版本。这些方法还可以与使用称为内核化的技术向数据添加功能相结合。这不适用于LDA，因为它不能保留正态性，但是对于仅寻找分离超平面的分类器而言，这并不是问题。

LDA和寻找分离的超平面的分类器之间的区别就像普通统计中的t检验和某些非参数替代方案之间的区别。后者更健壮（例如，对于异常值而言），但是如果满足其假设，则前者是最佳的。

再说一遍：也许值得一提的是，有些人可能出于文化原因而使用LDA或逻辑回归等方法，这些方法可能会强制性地散发出ANOVA表，假设检验和使人放心的事情。LDA是费舍尔发明的；感知器最初是人类或动物神经元的模型，与统计数据无关。它也以其他方式起作用。有些人可能会喜欢支持向量机之类的方法，因为它们具有20世纪无法比拟的尖端时髦信条。这并不意味着它们会更好。（如果我没记错的话，“黑客的机器学习”中讨论了一个很好的例子。）

— 比目鱼
source

“有些人可能更喜欢像支持向量机这样的方法，因为它们具有一种二十世纪的方法无法比拟的尖端时髦信条。” 大声笑！如此真实。顺便说一句，您有技巧可以非常清楚，准确地解释事情。谢谢！我需要一张“地图”，说明事物如何组合在一起，您提供了它。

— Creatron

2

出于直觉，请考虑以下情况：

在此处输入图片说明

该线表示两个类别o和x之间的“最佳边界”。

LDA尝试找到一个使簇间方差最小化并最大化簇内方差最大化的超平面，然后使边界与该超平面正交。在这里，这可能不起作用，因为群集在同一方向上具有较大的方差。

另一方面，感知器可能有更好的机会找到一个好的分离超平面。

但是，在具有高斯分布的类的情况下，LDA可能会做得更好，因为感知器只能找到与数据一致的分离超平面，而不能保证它选择的是哪个超平面（可能有无限个数）一致的超平面）。但是，更复杂的感知器版本可以选择具有某些最佳属性的超平面，例如，最大化类之间的余量（这实际上是支持向量机所做的事情）。

还要注意，LDA和感知器都可以通过内核技巧扩展到非线性决策边界。

— 按位
source

1

LDA与其他方法之间的最大区别之一是，它只是用于假设数据是正态分布的机器学习技术。在丢失数据或截断的情况下，这可能会很棒，您可以使用EM算法在非常奇怪和/或有趣的情况下使可能性最大化。请注意，因为模型错误指定（例如多模态数据）可能导致预测效果不佳，而K均值聚类会做得更好。EM还可以解释多峰数据，以检测潜在变量或LDA中的聚类。

例如，假设您要根据CD4计数来衡量5年内对AIDS进行阳性诊断的可能性。进一步假设您不知道会严重影响CD4计数并与进一步免疫抑制相关的特定生物标志物的价值。低于400的CD4计数低于大多数负担得起的检测方法的检测下限。EM算法使我们能够迭代地计算LDA和生物标志物分配以及未截短DF的CD4的均值和协方差。

— 亚当
source

谢谢亚当，尽管我现在变得更加困惑。:-) LDA如何更好/更糟，例如Perceptron或其他监督学习技术？关于EM算法，您使用它的用语是您可以使用 EM算法解决LDA，对吗？

— Creatron

1

@AdamO，为清楚起见，我想补充一点，作为数据缩减技术的LDA 不依赖于正常性，就像PCA不一样。LDA内的正态性是以下假设：1）统计检验（Box's M检验等），2）分类。

— ttnphns

@ttnphns假设正常意味着LDA是ML技术。ML是一件好事。我在示例中提到的特定警告使用ML解决了难题。这些解决方案只有通过复杂的仿真和/或BUGS才能实现。

— AdamO

@TheGrapeBeyond LDA使两组的Mahal距离btn最大化。SLP（单层感知器或nnet）在特征空间中绘制超平面，从而创建最大的分类精度...我认为。阅读Tibs / Hastie书是一个很好的起点。我可能需要亲自复习一下。

— AdamO