Questions tagged «dimensionality-reduction»

指的是将数据所涵盖的大量变量或维数减少为较少维数,同时保留有关数据的尽可能多信息的技术。突出的方法包括PCA,MDS,Isomap等。技术的两个主要子类:特征提取和特征选择。

1
偏最小二乘,减少秩回归和主成分回归之间有什么联系?
缩减秩回归和主成分回归只是偏最小二乘的特殊情况吗? 本教程(第6页,“目标比较”)指出,当我们在不投影X或Y的情况下进行偏最小二乘时(即“不偏”),相应地,它变成了降低秩回归或主成分回归。 在此SAS文档页面的 “降低的等级回归”和“方法之间的关系”部分中做出了类似的说明。 一个更基本的跟进问题是他们是否具有相似的潜在概率模型。

4
哪些变量解释了哪些PCA组件,反之亦然?
使用此数据: head(USArrests) nrow(USArrests) 我可以这样进行PCA: plot(USArrests) otherPCA <- princomp(USArrests) 我可以在中获得新组件 otherPCA$scores 和方差的比例由组件解释 summary(otherPCA) 但是,如果我想知道哪些变量主要由哪些主要成分来解释?反之亦然:例如PC1或PC2是否主要由解释murder?我怎样才能做到这一点? 例如,我可以说PC1是由murder或解释的80%assault吗? 我认为载荷在这里对我有帮助,但它们显示的是方向性,而不是我理解的方差,例如 otherPCA$loadings Loadings: Comp.1 Comp.2 Comp.3 Comp.4 Murder 0.995 Assault -0.995 UrbanPop -0.977 -0.201 Rape -0.201 0.974

2
合并/减少序数或名义数据类别的方法?
我正在努力寻找一种方法来减少名义或有序数据中的类别数量。 例如,假设我要在具有多个名义和有序因素的数据集上构建回归模型。尽管此步骤没有问题,但我经常遇到这样的情况:名义特征在训练集中没有观测值,但随后存在于验证数据集中。当模型出现(到目前为止)看不见的情况时,这自然会导致错误。我想要合并类别的另一种情况是,当类别过多而观察不到时。 所以我的问题是: 虽然我认识到最好根据它们代表的先前真实世界的背景信息来组合许多名义(和次序)类别,但是否有系统的方法(R最好是软件包)可用? 您将针对阈值等提出什么指导和建议? 文学中最受欢迎的解决方案是什么? 除了将较小的名义类别合并为新的“ OTHERS”类别之外,还有其他策略吗? 如果您还有其他建议,请随时输入。


3
使用T-SNE选择超参数进行分类
作为我要解决的特定问题(竞赛),我进行了以下设置:21个功能([0,1]上的数字)和二进制输出。我大约有10万行。设置似乎非常嘈杂。 我和其他参与者使用了一段时间的特征生成功能,并且在这种情况下,t分布的随机邻居嵌入非常强大。 我偶然发现了这篇文章“如何有效使用t-SNE”,但我仍然无法真正得出关于如何在我的分类设置中最佳选择超参数的结论。 是否有经验法则(特征数量,嵌入尺寸->困惑选择)? 我现在只是临时应用设置,因为迭代各种设置所需的时间太长。感谢您的任何评论。



1
LDA的代数。变量的Fisher判别力和线性判别分析
显然, Fisher分析的目的是同时最大化类之间的距离,同时最小化类内离散。因此,对角线量给出了变量判别力的有效度量。Bii/WiiBii/WiiB_{ii}/W_{ii} http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html 我了解p x p之间(B)和内部类(W)矩阵的大小()由输入变量的数量给出p。鉴于此,Bii/WiiBii/WiiB_{ii}/W_{ii}如何成为单个变量的“有用的判别量”?构造矩阵B和W至少需要两个变量,因此各个迹线将代表一个以上的变量。 更新:我是否认为不是隐含总和的迹线,而是矩阵元素除以的迹线?目前,这是使表达式与概念保持一致的唯一方法。 B 我我 W¯¯ 我我Bii/WiiBii/WiiB_{ii}/W_{ii}BiiBiiB_{ii}WiiWiiW_{ii}

2
我可以对重复的数据缩减措施进行PCA吗?
我在2种情况下分别对87只动物进行了3次试验(一些缺失数据;无缺失数据= 64只动物)。在一个情况下,我有很多具体措施(时间进入,次返回住所号等),所以我想开发描述在这方面的行为2至3复合行为评分(打电话给他们C1,C2,C3)。我希望C1在所有3个试验和87个动物中都具有相同的含义,以便我可以进行回归分析以检验年龄,性别,血统和单个动物对行为的影响。然后,我想研究C1在特定年龄段内其他情况下的行为得分与它们之间的关系。(在1岁时,上下文1中的活动是否强烈预测了上下文2中的活动?) 如果不采取重复措施,则PCA会很好用–对上下文的多个度量进行PCA,然后使用PC1,PC2等检查一个上下文中的PC1与PC1(或2或2)之间的关系(Spearman相关性)。 3)在其他情况下。问题是重复的措施,属于伪复制。我曾经有一个审阅者断言“不行”,但是我找不到任何明确的参考资料来说明在进行数据缩减时是否存在问题。 我的推理是这样的:重复的措施不是问题,因为我在PCA中所做的只是相对于原始措施的描述。如果我通过命令宣布我正在花时间进入竞技场作为上下文1中的“大胆”度量,那么我将获得上下文1大胆性度量,该度量在所有年龄段的所有个人中都是可比的,没有人会大吃一惊。如果我按法令声明我将使用的进入时间的进入远端时间,则同样。因此,如果我纯粹是出于还原目的使用PCA,为什么不能将其设为PC1(输入完成+ 0.5 ⋅ 0.28 ⋅ + 0.63 ⋅ + 0.02 ⋅0.5 ⋅0.5⋅0.5\cdot+ 0.5 ⋅ + 0.5⋅+\ 0.5\cdot0.28 ⋅0.28⋅0.28\cdot+ 0.63 ⋅ + 0.63⋅+\ 0.63\cdot+ 0.02 ⋅ + 0.02⋅+\ 0.02\cdot 总时间...),这至少是由我的多项指标所决定的,而不是我猜测进入时间通常是一种有益的,具有代表性的特征? (请注意,我对度量的基本结构不感兴趣……我的问题是关于我们如何解释特定于上下文的行为。哈里在上下文2中活跃吗?如果他随着年龄的增长而改变了我们在上下文1中所解释的活动,他是否还会在上下文2中改变其活动?) 我看过PARAFAC,看过SEM,但我不认为这两种方法对我的样本量更好或更合适。有人可以称体重吗?谢谢。

1
解释LLE(局部线性嵌入)算法的步骤?
我了解LLE算法背后的基本原理包括三个步骤。 通过某种度量(例如k-nn)找到每个数据点的邻域。 找到每个邻居的权重,这些权重表示邻居对数据点的影响。 根据计算出的权重构造数据的低维嵌入。 但是,在我阅读的所有课本和在线资源中,步骤2和步骤3的数学解释令人困惑。我无法解释为什么使用这些公式。 在实践中如何执行这些步骤?有没有任何直观的方式来解释所使用的数学公式? 参考:http : //www.cs.nyu.edu/~roweis/lle/publications.html

1
t-SNE中的轴是什么意思?
我目前正在尝试围绕t-SNE数学学习。不幸的是,还有一个我不能令人满意地回答的问题:t-SNE图中轴的实际含义是什么?如果要在此主题上进行演示或将其包含在任何出版物中:我如何适当地标记轴? PS:我读了 Reddit问题,但是那里给出的答案(例如“取决于解释和领域知识”)并不能真正帮助我理解这一点。

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 


4
仅使用距离矩阵执行PCA
我想将只有成对距离的海量数据集聚类。我实现了k-medoids算法,但是运行时间太长,因此我想首先通过应用PCA减小问题的范围。但是,我知道执行此方法的唯一方法是使用我在我的情况下没有的协方差矩阵。 有没有一种方法可以仅知道成对距离来应用PCA?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.