Questions tagged «dimensionality-reduction»

指的是将数据所涵盖的大量变量或维数减少为较少维数,同时保留有关数据的尽可能多信息的技术。突出的方法包括PCA,MDS,Isomap等。技术的两个主要子类:特征提取和特征选择。

1
内核近似的Nystroem方法
我一直在阅读有关低阶内核近似的Nyström方法。该方法在scikit-learn [1]中实现,作为一种将数据样本投影到内核特征映射的低秩近似的方法。 据我所知,给定训练集和一个核函数,它通过将SVD应用于来生成核矩阵的低秩近似。和。{xi}ni=1{xi}i=1n\{x_i\}_{i=1}^nn×nn×nn \times nKKKWWWCCC K=[WK21KT21K22]K=[WK21TK21K22]K = \left [ \begin{array}{cc} W & K_{21}^T \\ K_{21} & K_{22} \end{array} \right ] C=[WK21]C=[WK21]C = \left [\begin{array}{cc} W \\ K_{21} \end{array}\right ],W∈Rl×lW∈Rl×lW \in \mathbb{R}^{l\times l} 但是,我不了解如何使用内核矩阵的低秩近似将新样本投影到近似的内核特征空间。我发现的论文(例如[2])并没有太大帮助,因为它们几乎没有说教性。 另外,我对这种方法在训练和测试阶段的计算复杂性感到好奇。 [1] http://scikit-learn.org/stable/modules/kernel_approximation.html#nystroem-kernel-approx [2] http://www.jmlr.org/papers/volume13/kumar12a/kumar12a.pdf



8
可视化高维数据
我有两个类别的样本,它们是高维空间中的向量,我想将它们绘制为2D或3D。 我了解降维技术,但是我需要一个非常简单易用的工具(在matlab,python或预构建的.exe中)。 我也想知道2D表示会“有意义”吗?(例如,两个类如何相交或可分离)。

3
因子分析的假设是什么?
我想检查我是否真的了解[经典,线性] 因子分析(FA),尤其是在FA之前(以及之后)所做的假设。 某些数据应首先进行关联,并且它们之间可能存在线性关系。在进行因子分析之后,数据是正态分布的(每对的双变量分布),并且因子之间(通用变量和特异性变量之间)没有相关性,一个因子的变量与其他因子的变量之间也没有相关性。 这是正确的吗?

2
出于回归的目的,减少预测变量的维数有什么优势?
与传统的回归技术(不进行任何降维处理)相比,降维回归(DRR)或监督降维(SDR)技术有哪些应用或优势?这些技术类别可为回归问题找到特征集的低维表示。此类技术的示例包括切片逆回归,主Hessian方向,切片平均方差估计,内核切片逆回归,主成分回归等。 就交叉验证的RMSE而言,如果在没有任何降维的情况下算法在回归任务上表现更好,那么降维用于回归的真正用途是什么?我不了解这些技术。 这些技术是否有机会用于减少回归所需的时间和空间?如果这是主要优点,那么使用此技术后,一些有关降低高维数据集复杂性的资源将很有帮助。我以运行DRR或SDR技术本身需要一些时间和空间这一事实来对此进行辩论。低调数据集上的此SDR / DRR +回归是否比高调数据集上的仅回归快? 是否仅出于抽象兴趣对这种设置进行了研究,并且没有很好的实际应用? 顺带一提:有时会假设特征和响应的联合分布在流形上。在这种情况下,从观察到的样本中学习流形对于解决回归问题是有意义的。ÿXXXÿYY

7
数据缩减技术来识别国家类型
我教经济地理入门课程。为了帮助我的学生更好地了解当代世界经济中的国家类型以及对数据缩减技术的理解,我想构建一项作业,以创建不同国家类型的研究(例如,高收入高收入国家预期寿命长;高收入自然资源出口国的预期寿命中等;德国是第一类,而也门是第二类。这将使用可公开获得的开发计划署数据(如果我记得正确的话,其中包含有关不到200个国家的社会经济数据;抱歉,没有可用的区域数据)。 在进行此分配之前,将有另一个要求他们(使用相同的-主要是区间或比率水平-数据)检查这些相同变量之间的相关性。 我的希望是,他们将首先对不同变量之间的关系类型产生一种直觉(例如,预期寿命与[财富的各种指标]之间的正相关;财富与出口多样性之间的正相关)。然后,当使用数据缩减技术时,构成要素或因素将具有一定的直观意义(例如,构成要素/要素1体现了财富的重要性;构成要素/要素2体现了教育的重要性)。 鉴于这些是第二至四年级的学生,通常他们对分析性思维的了解通常比较有限,那么您建议哪种单一的数据缩减技术最适合第二次作业?这些是人口数据,因此推论统计(p-vlaues等)并不是真正必要的。


3
第一个主要组件不会分隔类别,而其他PC会分开。那怎么可能?
我对17个定量变量运行了PCA,以获取较小的变量集(即主要成分),该变量集用于有监督的机器学习中,用于将实例分为两类。在PCA之后,PC1占数据方差的31%,PC2占数据的17%,PC3占10%,PC4占8%,PC5占7%,PC6占6%。 但是,当我看两类计算机之间的均值差异时,令人惊讶的是,PC1不能很好地区分两类计算机。剩下的PC就是很好的鉴别器。另外,PC1在决策树中使用时变得无关紧要,这意味着在修剪树后甚至在树中都不存在它。该树由PC2-PC6组成。 这个现象有什么解释吗?衍生变量会出问题吗?

2
为什么PCA最大化投影的总方差?
克里斯托弗·毕晓普(Christopher Bishop)在他的《模式识别和机器学习》一书中写道,在将数据投影到与先前选定的组件正交的空间之后,每个连续的主分量将投影在一个维度上的方差最大化。其他人显示类似的证明。 但是,这仅证明了就最大方差而言,每个连续分量都是对一个维度的最佳投影。为什么这意味着,首先选择这样的组件,投影到5个维度的方差最大化?

4
严格来说,“随机投影”不是投影吗?
随机投影算法的当前实现方式是使用投影矩阵将数据样本从映射到从而降低了数据样本的维数,该矩阵的条目来自适当的分布(例如来自):RdRd\mathbb R^dRkRk\mathbb R^kd×kd×kd\times kRRRN(0,1)N(0,1)\mathcal N(0,1) x′=1k√xRx′=1kxRx^\prime = \frac{1}{\sqrt k}xR 方便地,存在理论证明,表明该映射近似保留了成对的距离。 但是,最近我发现了这些注释,其中作者声称该单词与严格矩阵的线性代数意义上的投影并不是严格意义上的投影(第6页)。根据此处给出的说明,这是因为当的列从中独立选择时,它们的列并非严格正交。因此,可以将强制执行列的正交性的RP的早期版本视为投影。RRRN(0,1)N(0,1)\mathcal N(0,1)RRR 您能否提供以下更详细的解释:(1)从严格意义上讲,投影的定义是什么;(2)为什么在这种定义下RP不是投影?

3
您何时会在分类中使用PCA而不是LDA?
我正在阅读这篇文章,了解主成分分析和多重判别分析(线性判别分析)之间的区别,并且我试图理解为什么您会使用PCA而不是MDA / LDA。 解释总结如下: 粗略地讲,在PCA中,我们试图找到数据散布最大的方差最大的轴(在一个类内,因为PCA将整个数据集视为一个类),而在MDA中,我们额外在最大化各类之间的散布。 您不是总想同时最大化方差和最大化类之间的差异吗?

1
大规模PCA甚至可能吗?
主成分分析(PCA)的经典方法是在输入数据矩阵上进行,列的均值为零(然后PCA可以“最大化方差”)。通过将列居中可以轻松实现。但是,当输入矩阵稀疏时,居中的矩阵现在将变得稀疏,并且-如果矩阵很大,则不再适合内存。有针对存储问题的算法解决方案吗?

1
混合连续变量和二进制变量的t-SNE
我目前正在研究使用t-SNE进行高维数据的可视化。我有一些包含二进制和连续变量混合的数据,并且数据似乎很容易将二进制数据聚类。当然,这是按比例缩放(介于0和1之间)数据的预期:二进制变量之间的Euclidian距离将始终最大/最小。如何使用t-SNE处理混合的二进制/连续数据集?我们应该删除二进制列吗?它有一个不同的metric,我们可以使用? 作为示例,请考虑以下python代码: x1 = np.random.rand(200) x2 = np.random.rand(200) x3 = np.r_[np.ones(100), np.zeros(100)] X = np.c_[x1, x2, x3] # plot of the original data plt.scatter(x1, x2, c=x3) # … format graph 所以我的原始数据是: 其中颜色是第三个特征(x3)的值-在3D中,数据点位于两个平面(x3 = 0平面和x3 = 1平面)中。 然后,我执行t-SNE: tsne = TSNE() # sci-kit learn implementation X_transformed = StandardScaler().fit_transform(X) tsne = TSNE(n_components=2, …

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.