统计和大数据 sparse

7

我曾在某处看到，当我们拥有多维和稀疏数据时，经典距离（如欧几里得距离）变得难以区分。为什么？您是否有两个稀疏数据向量的示例，其中欧几里得距离的效果不好？在这种情况下，我们应该使用哪种相似性？

72 machine-learning clustering data-mining sparse euclidean

3

我之前在课堂上的一些讲座中了解了PCA，并且通过深入了解这个引人入胜的概念，我了解了稀疏的PCA。我想问一下，如果我没记错的话，这就是稀疏的PCA：在PCA中，如果您有个带有变量的数据点，则可以在应用PCA之前表示维空间中的每个数据点。应用PCA之后，您可以再次在同一维空间中表示它，但是，这一次，第一个主成分将包含最大的方差，第二个主要成分将包含第二个最大方差方向，依此类推。因此，您可以消除最后几个主要组件，因为它们不会导致大量数据丢失，并且可以压缩数据。对？ññnpppppp 稀疏PCA正在选择主成分，以使这些成分的矢量系数中包含较少的非零值。应该如何帮助您更好地解释数据？谁能举一个例子？

24 machine-learning pca sparse

4

是否有一个随机森林实现方案可以很好地处理稀疏数据？

是否有一个R随机森林实现方案可以很好地处理稀疏数据？我有成千上万的布尔输入变量，但是对于任何给定的示例，只有几百个布尔值才是TRUE。我对R还是比较陌生，并且注意到有一个用于处理稀疏数据的“ Matrix”包，但是标准的“ randomForest”包似乎无法识别这种数据类型。如果重要的话，输入数据将在R之外生成并导入。有什么建议吗？我也可以研究使用Weka，Mahout或其他软件包。

23 r random-forest sparse

1

机器学习算法中缺失数据和稀疏数据之间的区别

稀疏数据和缺失数据之间的主要区别是什么？它如何影响机器学习？更具体地说，稀疏数据和缺失数据对分类算法和算法的回归（预测数）类型有什么影响。我说的是一种情况，丢失数据的百分比很大，我们不能删除包含丢失数据的行。

20 machine-learning dataset missing-data sparse

1

在稀疏数据矩阵上运行的聚类算法

关闭。这个问题是题外话。它当前不接受答案。想改善这个问题吗？更新问题，使它成为交叉验证的主题。 5年前关闭。我正在尝试编译以下群集算法列表：在R中实施对稀疏数据矩阵（不是（非）相似性矩阵）进行操作，例如由sparseMatrix函数创建的矩阵。关于CV的其他几个问题都在讨论这个概念，但是这些问题都没有链接到可以直接在稀疏矩阵上运行的R包：聚类大型稀疏数据集聚类高维稀疏二进制数据寻找稀疏和高维聚类实现节省空间的集群到目前为止，我已经在R中找到了一个可以聚类稀疏矩阵的函数： skmeans：球形kmeans 来自skmeans包。kmeans使用余弦距离。在dgTMatrix对象上操作。提供与遗传k均值算法，pclust，CLUTO，gmeans和kmndirs的接口。例： library(Matrix) set.seed(42) nrow <- 1000 ncol <- 10000 i <- rep(1:nrow, sample(5:100, nrow, replace=TRUE)) nnz <- length(i) M1 <- sparseMatrix(i = i, j = sample(ncol, nnz, replace = TRUE), x = sample(0:1 , nnz, …

18 r clustering sparse

4

规范什么特别之处？

一个规范是唯一的（至少部分），因为是在间非凸和凸的边界。一个范数是“最稀疏”凸模（右？）。 p = 1 L 1L1L1L_1p=1p=1p=1L1L1L_1 我了解欧几里得范数源于几何，当维数具有相同单位时，它具有清晰的解释。但是我不明白为什么它优先于其他实数：？吗？为什么不将整个连续范围用作超参数？p > 1 p = 1.5 p = πp=2p=2p=2p>1p>1p>1p=1.5p=1.5p=1.5p=πp=πp=\pi 我想念什么？

13 regression regularization sparse

1

稀疏的训练集是否会对SVM产生不利影响？

我正在尝试使用SVM将消息分类为不同的类别。我已经从训练集中汇编了一些理想的单词/符号列表。对于表示消息的每个矢量，我将相应行设置为1是否存在该单词： “语料库”是：[玛丽，小羊羔，星星，闪烁] 第一条消息：“玛丽有只小羊羔”-> [1 1 1 0 0] 第二条消息：“闪烁的小星星”-> [0 1 0 1 1] 我认为这在SVM中是相当常见的设置，但是我的问题是，如果集合中包含成千上万个单词，那么实际上每条消息仅显示1-2个单词会怎样？我的训练向量集的线性相关性是否会对算法的收敛能力产生不利影响？

12 classification svm sparse

1

什么是规范和他们如何相关的正规化？

我最近看到了很多有关稀疏表示的论文，其中大多数使用规范并进行了一些最小化。我的问题是，规范和混合规范是什么？它们与正则化有何关系？ℓ p ℓ p ，qℓpℓp\ell_pℓpℓp\ell_pℓp,qℓp,q\ell_{p, q} 谢谢

12 machine-learning regularization sparse

1

大规模PCA甚至可能吗？

主成分分析（PCA）的经典方法是在输入数据矩阵上进行，列的均值为零（然后PCA可以“最大化方差”）。通过将列居中可以轻松实现。但是，当输入矩阵稀疏时，居中的矩阵现在将变得稀疏，并且-如果矩阵很大，则不再适合内存。有针对存储问题的算法解决方案吗？

10 pca algorithms dimensionality-reduction large-data sparse

1

如何在ARIMA模型的观察值48中加入创新的离群值？

我正在处理数据集。使用一些模型识别技术后，我得出了一个ARIMA（0,2,1）模型。我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值（IO）。如何将这个离群值合并到模型中，以便将其用于预测？我不想使用ARIMAX模型，因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗？以下是我的价值观： VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

4

随机矩阵的稀疏诱导正则化

众所周知（例如在压缩感测领域），范数是“稀疏诱导的”，即如果我们最小化函数（对于固定矩阵A和向量→ b）f A ，→ b（→ X）= ‖ 甲→ X - → b ‖ 2 2 + λ ‖ → X ‖ 1为足够大的λ > 0，我们很可能为很多选择甲，→ bL1L1L_1AAAb⃗ b→\vec{b}fA,b⃗ (x⃗ )=∥Ax⃗ −b⃗ ∥22+λ∥x⃗ ∥1fA,b→(x→)=‖Ax→−b→‖22+λ‖x→‖1f_{A,\vec{b}}(\vec{x})=\|A\vec{x}-\vec{b}\|_2^2+\lambda\|\vec{x}\|_1λ>0λ>0\lambda>0AAAb⃗ b→\vec{b}，和在结果→ x中具有许多完全为零的条目。λλ\lambdax⃗ x→\vec{x} 但是，如果我们最小化受该的条目的状态→ X为正，而总和到1，然后将大号1术语不具有任何影响（因为‖ → X ‖ 1 = 1通过法令）。在这种情况下，是否存在一个类似的L 1型正则化函数可以起作用，以鼓励生成的→ x稀疏？fA,b⃗ fA,b→f_{A,\vec{b}}x⃗ x→\vec{x}111L1L1L_1∥ X⃗ ∥1个= 1‖x→‖1=1\|\vec{x}\|_1=1大号1个L1L_1X⃗ x→\vec{x}

10 regression matrix normalization regularization sparse

2

生成具有预定稀疏模式的对称正定矩阵

我正在尝试生成相关矩阵 p×pp×pp\times p（对称psd）具有预先指定的稀疏结构（由节点上的图形指定）。图中连接的节点具有相关性，其余全部为0，对角线全部为1。pppρ∼U(0,1)ρ〜ü（0，1个）\rho \sim U(0,1) 我曾尝试多次生成此矩阵，但很少能获得有效的相关矩阵。有什么方法可以确保相关矩阵whp吗？请注意，我只能具有正相关，因此等不是一个选择。ρ∼U(−1,1)ρ〜ü（-1个，1个）\rho \sim U(-1,1) 任何帮助是极大的赞赏！

9 correlation matrix sparse correlation-matrix

1

将神经网络与稀疏输入配合使用时应遵循哪些准则

我的输入极为稀疏，例如输入图像中某些特征的位置。此外，每个功能都可以进行多次检测（不确定是否会影响系统的设计）。我将其表示为k通道“二进制图像”，其中ON像素表示该特征的存在，反之亦然。我们可以看到这样的输入注定是非常稀疏的。因此，在将稀疏数据与神经网络一起使用时，是否有任何建议，特别是代表检测/位置的数据？

9 neural-networks deep-learning sparse

2

选择要包含在回归中的稀疏主成分的数量

有没有人有经验来选择要包含在回归模型中的稀疏主成分的数量？

9 pca sparse regression-strategies

Questions tagged «sparse»