有监督的降维


13

我有一个由15K标记的样本(共10组)组成的数据集。我想将降维应用于两个维度,这将考虑标签的知识。

当我使用“标准”无监督降维技术(例如PCA)时,散点图似乎与已知标签无关。

我要找的东西有名字吗?我想阅读一些解决方案参考。


3
如果您正在寻找线性方法,则应该使用线性判别分析(LDA)。
变形虫说莫妮卡(Reonica Monica)

@amoeba:谢谢。我用它,它的表现要好得多!
罗伊

很高兴它有所帮助。我提供了简短的答案,并提供了其他参考。
变形虫说莫妮卡(

1
一种可能性是,首先缩小到跨类质心的九维空间,然后使用PCA进一步缩小到二维空间。
A. Donda

相关:stats.stackexchange.com/questions/16305(可能重复,尽管反之亦然。我在下面更新我的答案后会再说一遍。)
变形虫说恢复莫妮卡

Answers:


27

监督降维的最标准线性方法称为线性判别分析(LDA)。它旨在查找可以最大程度地隔离类的低维投影。您可以在我们的标签下以及任何机器学习教科书(例如免费提供的《统计学习的要素》)中找到很多有关它的信息。

这是我通过Google快速搜索在这里找到的图片;当数据集中有两个类别时,它将显示一维PCA和LDA投影(由我添加起点):

PCA与LDA

另一种方法称为偏最小二乘(PLS)。LDA可以解释为寻找与编码组标签的虚拟变量具有最高相关性的投影(在这种意义上,LDA可以被视为规范相关分析CCA的特殊情况)。相反,PLS寻找与组标签具有最高协方差的投影。对于两组,LDA仅产生1个轴(如上图所示),而PLS会发现许多轴的协方差递减。请注意,当数据集中存在两个以上的组时,PLS会有不同的“味道”,它们会产生一些不同的结果。

更新(2018)

我应该抽出时间来扩展这个答案;这个线程似乎很流行,但是我上面的原始答案很短而且不够详细。

同时,我将提到邻域成分分析 -一种线性方法,该方法可找到最大化最近邻分类精度的投影。有一个使用神经网络的非线性概括,请参见通过保留类邻域结构学习非线性嵌入。也可以使用带有瓶颈的神经网络分类器,请参阅监督维数减少中的深层瓶颈分类器k


1
精美的图形说明了很多
Titou
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.