Questions tagged «dimensionality-reduction»

指的是将数据所涵盖的大量变量或维数减少为较少维数,同时保留有关数据的尽可能多信息的技术。突出的方法包括PCA,MDS,Isomap等。技术的两个主要子类:特征提取和特征选择。

5
最高主成分如何保持对因变量的预测能力(甚至导致更好的预测)?
假设我正在回归。为什么通过选择X的前k个主成分,模型对Y保持预测能力?ÿ〜XY∼XY \sim XķkkXXXÿYY 从降维/特征选择的角度来看,如果我理解。。。v k是X的协方差矩阵的特征向量,具有最高k个特征值,则X v 1,X v 2。。。X v k是具有最大方差的前k个主成分。据我所知,我们可以将特征数量减少到k并保留大多数预测能力。v1个,v2,。。。vķv1,v2,...vkv_1, v_2, ... v_kXXXķkkXv1个,Xv2。。。XvķXv1,Xv2...XvkXv_1, Xv_2 ... Xv_kķkkķkk 但是,为什么前分量保留对Y的预测能力?ķkkÿYY 如果我们谈论的一般OLS ,没有理由认为,如果功能ž 我有最大方差,然后ž 我对大多数预测能力Ÿ。ÿ〜žY∼ZY \sim Zž一世ZiZ_iž一世ZiZ_iÿYY 看到评论后进行更新:我想我已经看到了很多使用PCA进行降维的示例。我一直认为这意味着我们剩下的维度具有最大的预测能力。否则降维的目的是什么?

2
如何理解“非线性降维”中的“非线性”?
我试图了解线性降维方法(例如PCA)和非线性降维方法(例如Isomap)之间的差异。 在这种情况下,我不太了解(非线性)含义。我从维基百科上得知 相比之下,如果使用PCA(线性降维算法)将同一数据集缩小为二维,则结果值的组织就不太好。这表明采样此歧管的高维向量(每个代表字母“ A”)以非线性方式变化。 是什么 采样此歧管的高维向量(每个代表字母“ A”)以非线性方式变化。 意思?或更广泛地说,在这种情况下,我如何理解(非线性)?

3
可视化降维是否应该视为由t-SNE解决的“封闭”问题?
我已经阅读了很多有关 -sne算法以进行降维。我对“经典”数据集(例如MNIST)的性能印象深刻,在该数据集上,数字清晰地分开了(请参阅原始文章):ŤŤt 我还使用它来可视化我正在训练的神经网络学到的功能,并对结果感到非常满意。 因此,据我了解: ŤŤtØ (ñ 日志n )Ø(ñ日志⁡ñ)O(n \log n) 我知道这是一个非常大胆的声明。我有兴趣了解这种方法的潜在“陷阱”。也就是说,在任何情况下我们都知道它没有用吗?此外,该领域存在哪些“开放”问题?

2
什么是“降秩回归”?
我一直在阅读《统计学习的要素》,但我不明白第3.7节“多结果缩减和选择”的含义。它谈论的是RRR(降秩回归),我只能理解前提是关于一个广义多元线性模型,该模型的系数未知(需要估算),但已知其不具有完整的秩。那是我唯一的了解。 其余的数学超出了我。作者说“一个人可以展示”并将事情留为练习甚至没有帮助。 有人可以帮忙直观地解释这里发生的事情吗?本章是否应该讨论新方法?或者是什么?

1
如果维数为为什么
在PCA中,当维数大于(甚至等于)样本数,为什么您最多具有个非零特征向量?换句话说,维中协方差矩阵的秩为Ñ Ñ - 1 d ≥ ÑdddNNNN−1N−1N-1d≥Nd≥Nd\ge NN−1N−1N-1。 示例:您的样本是矢量化图像,尺寸为d=640×480=307200d=640×480=307200d = 640\times480 = 307\,200,但您只有N=10N=10N=10张图片。

1
t-SNE与MDS
最近一直在阅读有关t-SNE(t分布随机邻居嵌入)的一些问题,并且还访问了有关MDS(多维缩放)的一些问题。 它们通常以类似的方式使用,因此在这里将两个问题分开(或与PCA进行比较)时,将这个问题视为一个好主意。 简而言之,t-SNE和MDS有何不同?例如。他们探索了数据层次结构的哪些优点,不同的假设等。 收敛速度?内核的使用又如何呢?

3
当维数大于样本数时的PCA
我遇到了一个场景,其中我有10个人/人的10个信号(因此100个样本),其中包含需要传递给分类器的14000个数据点(维度)。我想减少此数据的维数,而PCA似乎是这样做的方法。但是,我仅能找到样本数量大于维数的PCA示例。我正在使用PCA应用程序,该应用程序使用SVD查找PC。当我将其传递给我的100x14000数据集时,返回了101台PC,因此显然可以忽略绝大多数尺寸。该程序表明前6台PC包含90%的方差。 是否合理地假设这101台PC基本上包含所有差异并且其余尺寸可以忽略不计? 我读过的一篇论文声称,使用与我自己的数据集相似的(尽管质量略低)数据集,他们能够将4500尺寸缩减到80,从而保留了96%的原始信息。论文挥舞着使用的PCA技术的细节,只有3100个样本可用,我有理由相信比实际用于PCA的样本更少(以消除分类阶段的偏差)。 我是否缺少某些东西,或者这真的是PCA与高维,低样本量数据集结合使用的方式吗?任何反馈将不胜感激。

4
为什么混合数据是基于欧几里得的聚类算法的问题?
大多数经典的聚类和降维算法(分层聚类,主成分分析,k均值,自组织映射...)都是专门为数字数据设计的,其输入数据被视为欧氏空间中的点。 当然,这是一个问题,因为许多现实世界中的问题都涉及到混杂的数据:例如,如果我们研究公交车,则高度,长度和电机尺寸将是数字,但我们可能也会对颜色感兴趣(分类变量:蓝色/红色/绿色...)和容量类别(顺序变量:小/中/大容量)。具体来说,我们可能想同时研究这些不同类型的变量。 有很多方法可以将经典聚类算法扩展到混合数据,例如使用Gower不相似性插入层次聚类或多维缩放,或者采用其他以距离矩阵为输入的方法。或例如此方法,是将SOM扩展为混合数据。 我的问题是:为什么我们不能仅对混合变量使用欧几里德距离?还是为什么这样做不好?为什么我们不能仅对分类变量进行虚拟编码,对所有变量进行归一化,以使它们在观察之间的距离上具有相似的权重,并在这些矩阵上运行常规算法? 这真的很容易,而且从未做过,所以我想这是非常错误的,但是有人可以告诉我为什么吗?和/或给我一些参考?谢谢

4
功能主成分分析(FPCA):这是怎么回事?
功能主成分分析(FPCA)是我偶然发现且从未了解的内容。这是什么一回事呢? 请参见Shang,2011年的“功能主成分分析调查”,我在此引用: 由于“维数的诅咒”,PCA在分析功能数据时遇到了严重的困难(Bellman 1961)。“维数的诅咒”源自高维空间中的数据稀疏性。即使PCA的几何特性仍然有效,并且即使数值技术提供了稳定的结果,样本协方差矩阵有时也不能很好地估计总体协方差矩阵。为了克服这一困难,与PCA相比,FPCA提供了更多的信息来检查样本协方差结构[...] 我就是不明白。本文描述的缺点是什么?PCA难道不是处理“维数诅咒”等情况的最终方法吗?


5
是否有用于流数据的t-SNE版本?
我对t-SNE和Barnes-Hut近似的理解是,需要所有数据点,以便可以同时计算所有力的相互作用,并且可以在2d(或更低维)图中调整每个点。 是否有任何版本的t-sne可以有效处理流数据?因此,如果我的观测一次到达一个观测,它将在2d地图上找到最佳位置以放置新观测,或者连续更新2d地图上的所有点以解决新观测。 这甚至有意义还是与t-sne的设置背道而驰?


4
真实数据中是否确实存在“维数诅咒”?
我了解什么是“维数的诅咒”,我做了一些高维优化问题,并且知道了指数可能性的挑战。 但是,我怀疑大多数现实数据中是否存在“维数的诅咒” (让我们暂时搁置图像或视频,我正在考虑诸如客户人口统计数据和购买行为数据之类的数据)。 我们可以收集具有数千个要素的数据,但是即使要素不可能完全跨越具有数千个维度的空间,这种可能性也很小。这就是为什么降维技术如此流行的原因。 换句话说,数据很可能不包含指数级的信息,即,许多要素高度相关,许多要素满足80-20条规则(许多实例具有相同的值)。 在这种情况下,我认为像KNN这样的方法仍然可以正常工作。(在大多数书中,“维数的诅咒”说维数> 10可能是有问题的。在他们的演示中,他们在所有维上使用均匀分布,而熵确实很高。我怀疑在现实世界中这种情况是否会发生。) 我对真实数据的个人经验是,“维数诅咒”不会过多地影响模板方法(例如KNN),并且在大多数情况下,约100维仍然有效。 这对其他人来说是真的吗?(我使用不同行业的真实数据工作了5年,从未见过书中所述的“所有距离对都具有相似的值”。)

4
SVD / PCA的“规范化”变量
假设我们有NNN可测量的变量(a1,a2,…,aN)(a1,a2,…,aN)(a_1, a_2, \ldots, a_N),我们进行了M>NM>NM > N个测量,然后希望对结果进行奇异值分解,以找到最大方差轴。N维空间中的MMM个点。(注意:假设的装置一个我已经减去,所以⟨ 一个我 ⟩ = 0对于所有我)。NNNaiaia_i⟨ai⟩=0⟨ai⟩=0\langle a_i \rangle = 0iii 现在假设一个(或多个)变量的特征量级与其余变量具有显着不同的特征量级。例如a1a1a_1可具有值的范围在10−10010−10010-100其余的可能约为0.1−10.1−10.1-1。这将扭曲向最高方差的轴a1a1a_1的轴非常多。 大小上的差异可能仅仅是由于不幸地选择了度量单位(如果我们谈论的是物理数据,例如公里与米),但是实际上不同的变量可能具有完全不同的尺寸(例如重量与体积),因此可能没有任何明显的方法为它们选择“可比较”的单位。 问题: 我想知道是否存在任何标准/通用方法来规范化数据以避免这种问题。我更感兴趣的是产生了相当的幅度标准技术a1−aNa1−aNa_1 - a_N为了这个目的,而不是想出一些新的东西。 编辑: 一种可能性是通过其标准偏差或类似的东西标准化每个变量。但是,随后出现以下问题:让我们将数据解释为NNN维空间中的点云。该点云可以旋转,并且这种类型的归一化将根据旋转给出不同的最终结果(在SVD之后)。(例如,在最极端的情况下,想象精确地旋转数据以使主轴与主轴对齐。) 我希望不会有任何旋转不变的方法,但是如果有人能指出我对文献中有关此问题的某些讨论,特别是关于结果解释中的注意事项,我将不胜感激。

2
我们何时将降维与聚类结合在一起?
我正在尝试执行文档级群集。我构建了术语文档频率矩阵,并尝试使用k均值对这些高维向量进行聚类。我所做的不是直接聚类,而是首先应用LSA(潜在语义分析)奇异矢量分解来获得U,S,Vt矩阵,然后使用scree图选择合适的阈值,然后对归约矩阵进行聚类(特别是Vt,因为它给了我一个概念文件信息),似乎给了我很好的结果。 我听说有人说SVD(奇异矢量分解)正在聚类(通过使用余弦相似性度量等),并且不确定是否可以在SVD的输出上应用k-均值。我认为这在逻辑上是正确的,因为SVD是降维技术,为我提供了许多新矢量。另一方面,k均值将采用簇数作为输入,并将这些向量划分为指定的簇数。这个程序有缺陷吗,或者有什么方法可以改进?有什么建议么?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.