Questions tagged «dimensionality-reduction»

降维是指用于在保留尽可能多的信息的同时将许多变量减少为较小数量的技术。一种突出的方法是[tag pca]


6
SVD和PCA如何处理大数据?
我有大量数据(大约8GB)。我想使用机器学习对其进行分析。因此,我认为我应该先使用SVD再使用PCA来降低数据维数以提高效率。但是,MATLAB和Octave无法加载如此大的数据集。 我可以使用哪些工具对大量数据执行SVD?

6
机器学习技术,可根据用户喜欢的Facebook网站估算用户的年龄
我有一个来自Facebook应用程序的数据库,我正在尝试使用机器学习根据用户喜欢的Facebook网站估算其年龄。 我的数据库具有三个关键特征: 我的训练集中的年龄分布(总共12,000个用户)偏向年轻用户(即,我有1157个27岁的用户和23个65岁的用户); 许多站点的点赞者不超过5个(我过滤掉了少于5个点赞的FB站点)。 功能比示例更多。 因此,我的问题是:您建议采取什么策略准备数据以进行进一步分析?我应该执行某种降维吗?在这种情况下,哪种ML方法最合适? 我主要使用Python,因此非常感谢Python特定的提示。

7
可视化高维数据的目的?
有很多可视化高维数据集的技术,例如T-SNE,isomap,PCA,监督PCA等。我们经历了将数据投影到2D或3D空间的动作,因此我们拥有“漂亮的图片”。这里介绍了其中一些嵌入(流形学习)方法。 但这“漂亮的图画”实际上有意义吗?通过可视化此嵌入式空间,某人可以获取哪些可能的见解? 我问,因为投射到这个嵌入式空间通常是没有意义的。例如,如果将数据投影到由PCA生成的主要成分,则这些主要成分(特征向量)不对应于数据集中的要素。他们是他们自己的特征空间。 同样,t-SNE将您的数据向下投影到一个空间,如果这些空间可以最大程度地减少KL差异,则它们彼此靠近。这不再是原始功能空间。(如果我做错了,请纠正我,但我什至不认为ML社区使用t-SNE来帮助分类的工作量很大;但这与数据可视化是一个不同的问题。) 我只是非常困惑,为什么人们对其中的一些可视化做出如此大的贡献。

1
t-sne尺寸有意义吗?
t-sne嵌入的尺寸有任何含义吗?像PCA一样,我们具有线性变换的方差最大化的感觉,但是对于t-sne,除了我们定义的用于映射和最小化KL距离的空间之外,还有直觉吗?

4
提高python中t-sne实现的速度以处理海量数据
我想对将近100万个具有200个维度的向量进行降维doc2vec。我使用TSNE从执行sklearn.manifold模块它和主要问题是时间复杂度。即使使用method = barnes_hut,计算速度仍然很低。有时甚至耗尽了内存。 我正在具有130G RAM的48核处理器上运行它。是否有一种方法可以并行运行它或利用大量资源来加快此过程。

3
最近的邻居搜索非常高维的数据
我对用户和他们喜欢的项目有一个稀疏的矩阵(按100万个用户和100K个项目的顺序排列,稀疏程度很低)。我正在探索可以对其执行kNN搜索的方法。考虑到数据集的大小和我执行的一些初始测试,我的假设是我将使用的方法必须是并行的或分布式的。因此,我正在考虑两类可能的解决方案:一种可以在单个多核计算机上使用(或以相当容易的方式实现),另一种可以在Spark集群上使用,即作为MapReduce程序。我考虑了以下三个主要思想: 假设一个余弦相似性度量,通过其转置(作为外部乘积之和来实现)对归一化矩阵进行完全乘法 使用位置敏感的哈希(LSH) 首先使用PCA降低问题的维度 对于任何其他可以解决此问题的方式的想法或建议,我将不胜感激。

5
特征选择与特征提取。什么时候使用?
特征提取和特征选择从本质上减少了数据的维数,但是如果我对的话,特征提取还使数据更可分离。 哪种技术会比其他技术更受青睐?何时使用? 我当时在想,因为特征选择不会修改原始数据及其属性,所以我假设在要培训的特征不变的情况下很重要,因此您将使用特征选择。但是我无法想象你为什么想要这样的东西。

1
可以在T-SNE可视化中将更近的点视为更相似吗?
我从欣顿的论文中了解到,T-SNE在保持本地相似性方面做得很好,在维护全球结构(集群化)方面做得很好。 但是我不清楚在2D t-sne可视化中出现的点是否可以假定为“更相似”的数据点。我正在使用具有25个功能的数据。 例如,观察下面的图像,我是否可以假定蓝色数据点与绿色数据点更相似,特别是最大的绿色点群集?或者,以不同的方式询问,是否可以假设蓝点与最近的群集中的绿色点比其他群集中的红色点更类似于绿色点?(忽略带红色簇中的绿色点) 当观察其他示例时,例如在sci-kit上学习的示例流形学习中,可以假定这一点是正确的,但是我不确定统计学上是否正确。 编辑 我已经手动计算了与原始数据集的距离(平均成对欧几里得距离),而可视化实际上代表了关于数据集的比例空间距离。但是,我想知道从t-sne的原始数学公式中得出的结果是否完全可以接受,而不仅仅是巧合。

2
高维数据:了解哪些有用的技术?
由于维数的各种诅咒,许多常见的预测技术的准确性和速度在高维数据上会下降。什么是最有效地处理高维数据的最有用的技术/技巧/启发式方法?例如, 某些统计/建模方法在高维数据集上表现良好吗? 我们是否可以通过使用某些(定义距离的替代概念)或核(定义点积的替代概念)来提高高维数据预测模型的性能? 高维数据降维最有用的技术是什么?

3
为什么用于降维的自动编码器是对称的?
无论如何我都不是自动编码器或神经网络的专家,所以如果这是一个愚蠢的问题,请原谅我。 为了降维或可视化高维数据中的群集,我们可以使用自动编码器通过检查具有2个节点的网络层的输出来创建(有损)2维表示。例如,使用以下架构,我们将检查第三层的输出 [ X] → N1个= 100 → N2= 25 → (N3= 2 )→ N4= 25 → N5= 100 → [ X][X]→N1=100→N2=25→(N3=2)→N4=25→N5=100→[X][X] \rightarrow N_1=100 \rightarrow N_2=25 \rightarrow (N_3=2) \rightarrow N_4=25 \rightarrow N_5=100 \rightarrow [X] 其中是输入数据,N l是第l层中的节点数。XXXñ升NlN_l升ll 现在,我的问题是,为什么我们要一个对称的架构?难道不是深层“压缩”阶段的镜像,这意味着我们可能会有类似复杂的“解压缩”阶段,导致2节点输出不是很直观吗?换句话说,难道没有更简单的解码阶段会导致具有2个节点的层的输出也必然变得更简单吗? 我的想法是,减压阶段越简单,二维表示就必须越简单(越线性?)。更复杂的减压阶段将允许更复杂的2D表示。

4
大分类值的一种热门编码替代方案?
您好,数据框具有超过1600个类别的大分类值,有什么办法可以找到替代方法,使我没有超过1600列。 我在下面的有趣链接中找到了此链接http://amunategui.github.io/feature-hashing/#sourcecode 但是他们正在转换为我不想要的类/对象。我希望最终输出为数据框,以便可以使用不同的机器学习模型进行测试吗?还是有什么方法可以使用生成的矩阵来训练除Logistic回归或XGBoost之外的其他机器学习模型? 无论如何,我可以实施吗?

2
大型数据集的有效降维
我有一个具有〜1M行和〜500K稀疏特征的数据集。我想将维数减少到1K-5K密集特征的数量级。 sklearn.decomposition.PCA在稀疏数据上不起作用,我已经尝试过使用,sklearn.decomposition.TruncatedSVD但是很快就会遇到内存错误。在这种规模的有效尺寸缩减方面,我有哪些选择?

3
是否有适用于python的好的即用型语言模型?
我正在为一个应用程序制作原型,我需要一个语言模型来计算一些生成的句子的困惑度。 我可以随时使用经过训练的python语言模型吗?简单的东西 model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 我看过一些框架,但找不到我想要的。我知道我可以使用类似: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) 这在Brown Corpus上使用了很好的图林概率分布,但是我正在一些大型数据集(例如1b单词数据集)上寻找精心设计的模型。我可以真正相信一般领域的结果(不仅是新闻)
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.