奇异值分解的目的是什么?


9

我不明白为什么缩小尺寸很重要。取得一些数据并缩小其维度有什么好处?


3
问题的语气并不能带来建设性的答案。请考虑改写您的问题。
萨沙

2
重点可能是减少存储某些信息所需的数据量,但要以牺牲一点点准确性为代价(例如JPEG图像压缩)。
Sasha

2
谢谢您的评论,@ Sasha。这是一个合理的问题,因此我做了一些较小的编辑,以避免原始措辞传达出的直率(肯定是意料之外的)印象。
Whuber


您可以对主题模型进行SVD​​操作,而不是概率模型。对于概率建模的主题,请使用LDA。如果您不进行主题建模,请使用PCA。
布拉德,

Answers:


18

奇异值分解(SVD)与减少数据的维数不同。这是一种将矩阵分解为其他矩阵的方法,该矩阵具有许多很棒的属性,我在这里不介绍。有关SVD的更多信息,请参见Wikipedia页面

减少数据的维数有时非常有用。可能您的变量多于观察值。这在基因组工作中并不罕见。可能是我们有几个高度相关的变量,例如,当它们受到少数潜在因素的严重影响时,我们希望恢复一些近似的潜在因素。降维技术(例如主成分分析,多维缩放和规范变量分析)使我们可以洞察观察值和/或变量之间的关系,而我们可能无法以其他任何方式获得它们。

一个具体的例子:几年前,我在分析一项员工满意度调查,该调查涉及100多个问题。好吧,没有经理能够查看超过100个问题的答案,甚至是摘要,并且所做的事都比猜测答案的含义还要多,因为谁能说出答案的相关性和推动力,真的?我对数据进行了因子分析,对此我进行了10,000多次观察,并提出了五个非常清晰且易于理解的因子,这些因子可用于制定管理者特定的分数(每个因子一个),以总结整个过程。 100多项问题调查。比以前报告结果的Excel电子表格转储更好的解决方案!


一种称为“薄SVD”的方法用于减小尺寸。参见SVD上的Wikipedia。
电子人2012年

5

关于问题的第二点,降低数据集维数的好处可能是:

  • 减少所需的存储空间
  • 加快了计算速度(例如在机器学习算法中),较小的尺寸意味着无用的计算,而且较小的尺寸可以允许使用不适合大量尺寸的算法
  • 删除多余的功能,例如毫无意义地存储以平方米和平方英里为单位的地形大小(也许数据收集存在缺陷)
  • 将数据的尺寸缩小为2D或3D可能使我们能够绘制和可视化数据,也许观察模式,从而为我们提供见解

除此之外,除PCA之外,SVD在信号处理,NLP等方面还有许多应用


2

看看我的这个答案。奇异值分解是主成分分析的关键组成部分,是一种非常有用且功能强大的数据分析技术。

它经常用在面部识别算法中,在做对冲基金分析师的日常工作中,我经常使用它。


1
SVD和PCA(虽然相关)不是不同的过程吗?
B_Miner 2011年

2
你是对的。SVD是一种获得PCA问题解决方案的方法。
bayerj 2011年

1
@B_Miner是的-这就是为什么我说svd是pca 的关键组成部分。我专注于pca,因为问题涉及降维(适合pca,而svd不适合)
Chris Taylor

选择组件一词也许是暂时抛弃@B_Miner的东西。:)
主教
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.