统计和大数据 high-dimensional

8

我读到“欧氏距离不是高尺寸的好距离”。我想这句话与维数的诅咒有关，但究竟是什么呢？此外，什么是“高尺寸”？我一直在使用具有100个要素的欧几里得距离进行层次聚类。使用此指标“安全”最多有多少个功能？

239 machine-learning clustering distance-functions metric high-dimensional

11

我听过很多次关于维数诅咒的信息，但是我仍然无法理解这个主意，因为它全是模糊的。任何人都可以用最直观的方式来解释这一点，就像您向孩子解释时一样，这样我（和其他困惑的我）才能永远理解这一点？编辑：现在，让我们说孩子以某种方式听说了聚类（例如，他们知道如何聚成玩具:)）。尺寸的增加如何使玩具聚类的工作更加困难？例如，他们过去只考虑玩具的形状和玩具的颜色（一种颜色的玩具），但现在还需要考虑玩具的尺寸和重量。为什么孩子很难找到类似的玩具？编辑2 为了便于讨论，我需要通过以下方式进行澄清：“为什么孩子很难找到类似的玩具”-我的意思也是为什么在高维空间中会丢失距离的概念？

91 machine-learning dimensionality-reduction high-dimensional

7

具有大量功能（> 10K）的最佳PCA算法？

我之前在StackOverflow上问过这个问题，但由于它在SO上没有任何答案，因此似乎在这里更合适。这是统计和编程之间的交集。我需要编写一些代码来进行PCA（主成分分析）。我浏览了众所周知的算法并实现了这一算法，据我所知，它等效于NIPALS算法。它可以很好地找到前2-3个主成分，但是收敛似乎很慢（大约数百到数千次迭代）。以下是我需要的详细信息：当处理大量特征（10,000到20,000数量级）和数百个样本量的样本时，该算法必须高效。它必须在没有像样的线性代数/矩阵库的情况下可以合理地实现，因为目标语言是D，但尚不存在，即使有，我也不想将其作为对相关项目的依赖项添加。附带说明一下，在同一个数据集上，R看起来非常快地找到了所有主成分，但是它使用了奇异值分解，这不是我想自己编写的东西。

54 pca algorithms model-evaluation high-dimensional

3

如何使用> 50K变量估算套索或岭回归中的收缩参数？

我想对超过50,000个变量的模型使用套索或岭回归。我想使用R中的软件包来执行此操作。如何估算收缩率参数（）？λλ\lambda 编辑：这是我要提出的要点： set.seed (123) Y <- runif (1000) Xv <- sample(c(1,0), size= 1000*1000, replace = T) X <- matrix(Xv, nrow = 1000, ncol = 1000) mydf <- data.frame(Y, X) require(MASS) lm.ridge(Y ~ ., mydf) plot(lm.ridge(Y ~ ., mydf, lambda = seq(0,0.1,0.001))) 我的问题是：我怎么知道哪个最适合我的模型？λλ\lambda

36 r lasso ridge-regression high-dimensional

3

可视化降维是否应该视为由t-SNE解决的“封闭”问题？

我已经阅读了很多有关 -sne算法以进行降维。我对“经典”数据集（例如MNIST）的性能印象深刻，在该数据集上，数字清晰地分开了（请参阅原始文章）：ŤŤt 我还使用它来可视化我正在训练的神经网络学到的功能，并对结果感到非常满意。因此，据我了解： ŤŤtØ （ñ 日志n ）Ø（ñ日志⁡ñ）O(n \log n) 我知道这是一个非常大胆的声明。我有兴趣了解这种方法的潜在“陷阱”。也就是说，在任何情况下我们都知道它没有用吗？此外，该领域存在哪些“开放”问题？

23 clustering data-visualization dimensionality-reduction high-dimensional tsne

1

为什么LASSO在高维度上找不到我的理想预测变量对？

我正在R中进行LASSO回归的小型实验，以测试它是否能够找到理想的预测变量对。该对的定义如下：f1 + f2 =结果这里的结果是称为“年龄”的预定向量。通过取年龄向量的一半并将其余值设置为0，可以创建F1和f2，例如：age = [1,2,3,4,5,6]，f1 = [1,2,3， 0,0,0]和f2 = [0,0,0,4,5,6]。通过从正态分布N（1,1）进行采样，我将此预测变量对与数量增加的随机创建变量结合在一起。我看到的是当我命中2 ^ 16个变量时，LASSO再也找不到了。请参阅下面的结果。为什么会这样呢？您可以使用以下脚本重现结果。我注意到，当我选择其他年龄向量时，例如：[1：193]，LASSO确实找到了高维（> 2 ^ 16）对。剧本： ## Setup ## library(glmnet) library(doParallel) library(caret) mae <- function(errors){MAE <- mean(abs(errors));return(MAE)} seed = 1 n_start <- 2 #start at 2^n features n_end <- 16 #finish with 2^n features cl <- …

20 r regression feature-selection lasso high-dimensional

1

在应用t-SNE之前，数据是否应该居中+缩放？

我的某些数据功能具有较大的值，而其他功能具有较小的值。在应用t-SNE之前是否有必要对数据进行居中+缩放，以防止偏向更大的值？我将Python的sklearn.manifold.TSNE实现与默认的欧几里得距离度量标准结合使用。

18 normalization dimensionality-reduction high-dimensional tsne

4

真实数据中是否确实存在“维数诅咒”？

我了解什么是“维数的诅咒”，我做了一些高维优化问题，并且知道了指数可能性的挑战。但是，我怀疑大多数现实数据中是否存在“维数的诅咒” （让我们暂时搁置图像或视频，我正在考虑诸如客户人口统计数据和购买行为数据之类的数据）。我们可以收集具有数千个要素的数据，但是即使要素不可能完全跨越具有数千个维度的空间，这种可能性也很小。这就是为什么降维技术如此流行的原因。换句话说，数据很可能不包含指数级的信息，即，许多要素高度相关，许多要素满足80-20条规则（许多实例具有相同的值）。在这种情况下，我认为像KNN这样的方法仍然可以正常工作。（在大多数书中，“维数的诅咒”说维数> 10可能是有问题的。在他们的演示中，他们在所有维上使用均匀分布，而熵确实很高。我怀疑在现实世界中这种情况是否会发生。）我对真实数据的个人经验是，“维数诅咒”不会过多地影响模板方法（例如KNN），并且在大多数情况下，约100维仍然有效。这对其他人来说是真的吗？（我使用不同行业的真实数据工作了5年，从未见过书中所述的“所有距离对都具有相似的值”。）

17 clustering dimensionality-reduction high-dimensional

1

高维回归：为什么

我正在尝试阅读有关高维回归领域的研究；当大于，即。似乎经常出现在回归估计量的收敛速度方面。Ñ p > > Ñ 日志p / Ñpppnnnp>>np>>np >> nlogp/nlog⁡p/n\log p/n 例如，这里的等式（17）表示套索拟合满足 1β^β^\hat{\beta}1n∥Xβ^−Xβ∥22=OP(σlogpn−−−−−√∥β∥1).1n‖Xβ^−Xβ‖22=OP(σlog⁡pn‖β‖1). \dfrac{1}{n}\|X\hat{\beta} - X \beta\|_2^2 = O_P \left(\sigma \sqrt{\dfrac{\log p}{n} } \|\beta\|_1\right)\,. 通常，这还意味着logplog⁡p\log p应该小于nnn。关于\ log p / n的比例为何logp/nlog⁡p/n\log p/n如此突出，是否有任何直觉？而且，从文献中看来，当\ log p \ geq n时，高维回归问题变得复杂logp≥nlog⁡p≥n\log p \geq n。为什么会这样呢？有没有很好的参考资料来讨论ppp和nnn应增长多快的问题？

16 regression lasso convergence high-dimensional

1

维数诅咒对某些模型的影响是否大于对其他模型的影响？

我一直在阅读的有关维数诅咒的地方主要结合kNN和线性模型对其进行解释。我经常在Kaggle中看到排名靠前的排名，这些排名使用了数据集上几乎没有100k数据点的数千个功能。他们主要使用Boosted树和NN等。许多功能似乎太高了，我觉得它们会受到尺寸诅咒的影响。但是事实并非如此，因为这些模型使它们成为了竞争中的佼佼者。因此，回到我最初的问题-某些模型受维度诅咒的影响大于其他模型吗？具体来说，我对以下模型感兴趣（仅因为这些是我知道/使用的模型）：线性和逻辑回归决策树/随机森林/加强树神经网络支持向量机神经网络 k均值聚类

15 neural-networks svm k-means k-nearest-neighbour high-dimensional

3

在随机森林分类之前对高维文本数据进行PCA？

在进行随机森林分类之前进行PCA是否有意义？我正在处理高维文本数据，并且我想进行特征缩减以帮助避免维数的诅咒，但是Random Forests是否已经在某种程度上降低了维度？

14 classification pca random-forest dimensionality-reduction high-dimensional

2

我怎么知道我的k均值聚类算法正遭受维数的诅咒？

我相信这个问题的标题说明了一切。

12 clustering k-means high-dimensional

2

3维的多元线性回归是最佳拟合平面还是最佳拟合线？

我们的专家没有进入多元线性回归的数学甚至几何表示，这让我有些困惑。一方面，即使在更高的维度上，它仍然被称为多元线性回归。在另一方面，如果我们有例如Ÿ = b 0 + b 1 X 1 + b 2 X 2，我们可以在任何值，插上我们想为X 1和X 2，就不该给我们一个可能的解决方案平面而不是一条线？Y^=b0+b1X1+b2X2Y^=b0+b1X1+b2X2\hat{Y} = b_0 + b_1 X_1 + b_2 X_2X1X1X_1X2X2X_2 总的来说，我们的预测表面不是k个独立变量的维超平面吗？kkkkkk

11 multiple-regression high-dimensional

4

维度诅咒：kNN分类器

我正在阅读凯文·墨菲（Kevin Murphy）的书：《机器学习-概率论》。在第一章中，作者正在解释维数的诅咒，其中有一部分我不理解。例如，作者指出：考虑输入沿D维单位立方体均匀分布。假设我们通过在x周围生长一个超立方体直到它包含所需的数据点分数来估计类标签的密度。该立方体的预期边缘长度为。e D（f ）= f 1FFfËd（f）= f1个dËd（F）=F1个de_D(f) = f^{\frac{1}{D}} 这是我无法理解的最后一个公式。似乎如果要覆盖10％的点，则沿每个尺寸的边长应为0.1？我知道我的推理是错误的，但我不明白为什么。

11 self-study k-nearest-neighbour high-dimensional

1

是Beyer等人的相对对比度定理。论文：“关于高维空间中距离度量的惊人行为”引起误解？

这在提到维数诅咒时经常被引用（右手公式称为相对对比度） limd→∞var(||Xd||kE[||Xd||k])=0,then:Dmaxkd−DminkdDminkd→0limd→∞var(||Xd||kE[||Xd||k])=0,then:Dmaxdk−DmindkDmindk→0 \lim_{d\rightarrow \infty} \text{var} \left(\frac{||X_d||_k}{E[||X_d||_k]} \right) = 0, \text{then}: \frac{D_{\max^{k}_{d}} - D_{\min^{k}_{d}}}{D_{\min^{k}_{d}}} \rightarrow 0 定理的结果表明，到给定查询点的最大距离和最小距离之间的差不会像在高维空间中到任何点的最近距离一样快。这使得邻近查询变得毫无意义且不稳定，因为最近邻居和最远邻居之间的区分度很差。链接但是，如果实际上尝试计算样本值的相对对比度，则意味着要获取一个包含非常小的值的向量，并计算到零向量的距离，然后对包含更大值的向量进行相同的计算，然后将其与尺寸为3且尺寸为10910910^9倍的尺寸，人们会看到，尽管该比例确实减小了，但变化却很小，以至于与实际使用的尺寸数量无关（或者有人知道有人在工作吗？数据的大小与Graham数的大小相同-我想这是描述纸张的效果与实际相关所需的大小-我认为不是）。如前所述，该定理经常被引用来支持这样的说法，即基于欧几里德空间来测量接近度在高维空间中是一种较差的策略，作者本人也是这样说的，但是建议的行为实际上并未发生，这使我认为该定理已被误导使用。示例：具有d尺寸 a=np.ones((d,)) / 1e5 b=np.ones((d,)) * 1e5 dmin,dmax=norm(a), norm(b) (dmax-dmin)/dmin 对于d = 3 9999999999.0 对于d = 1e8 9999999998.9996738 并使用 d = 1e8的 d = 3 用1e1代替1e5（假设数据已标准化） 99.0 98.999999999989527

10 machine-learning distance-functions high-dimensional

Questions tagged «high-dimensional»