Questions tagged «sparse»

稀疏矩阵是其中许多元素为零的矩阵。该标签还可以用于其他情况下的稀疏性,例如具有稀疏性的回归模型或“稀疏性下注”原则。


3
稀疏PCA到底比PCA好多少?
我之前在课堂上的一些讲座中了解了PCA,并且通过深入了解这个引人入胜的概念,我了解了稀疏的PCA。 我想问一下,如果我没记错的话,这就是稀疏的PCA:在PCA中,如果您有个带有变量的数据点,则可以在应用PCA之前表示维空间中的每个数据点。应用PCA之后,您可以再次在同一维空间中表示它,但是,这一次,第一个主成分将包含最大的方差,第二个主要成分将包含第二个最大方差方向,依此类推。因此,您可以消除最后几个主要组件,因为它们不会导致大量数据丢失,并且可以压缩数据。对?ññnpppppp 稀疏PCA正在选择主成分,以使这些成分的矢量系数中包含较少的非零值。 应该如何帮助您更好地解释数据?谁能举一个例子?

4
是否有一个随机森林实现方案可以很好地处理稀疏数据?
是否有一个R随机森林实现方案可以很好地处理稀疏数据?我有成千上万的布尔输入变量,但是对于任何给定的示例,只有几百个布尔值才是TRUE。 我对R还是比较陌生,并且注意到有一个用于处理稀疏数据的“ Matrix”包,但是标准的“ randomForest”包似乎无法识别这种数据类型。如果重要的话,输入数据将在R之外生成并导入。 有什么建议吗?我也可以研究使用Weka,Mahout或其他软件包。


1
在稀疏数据矩阵上运行的聚类算法
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 5年前关闭。 我正在尝试编译以下群集算法列表: 在R中实施 对稀疏数据矩阵(不是(非)相似性矩阵)进行操作,例如由sparseMatrix函数创建的矩阵。 关于CV的其他几个问题都在讨论这个概念,但是这些问题都没有链接到可以直接在稀疏矩阵上运行的R包: 聚类大型稀疏数据集 聚类高维稀疏二进制数据 寻找稀疏和高维聚类实现 节省空间的集群 到目前为止,我已经在R中找到了一个可以聚类稀疏矩阵的函数: skmeans:球形kmeans 来自skmeans包。kmeans使用余弦距离。在dgTMatrix对象上操作。提供与遗传k均值算法,pclust,CLUTO,gmeans和kmndirs的接口。 例: library(Matrix) set.seed(42) nrow <- 1000 ncol <- 10000 i <- rep(1:nrow, sample(5:100, nrow, replace=TRUE)) nnz <- length(i) M1 <- sparseMatrix(i = i, j = sample(ncol, nnz, replace = TRUE), x = sample(0:1 , nnz, …
18 r  clustering  sparse 

4
规范什么特别之处?
一个规范是唯一的(至少部分),因为是在间非凸和凸的边界。一个范数是“最稀疏”凸模(右?)。 p = 1 L 1L1L1L_1p=1p=1p=1L1L1L_1 我了解欧几里得范数源于几何,当维数具有相同单位时,它具有清晰的解释。但是我不明白为什么它优先于其他实数:?吗?为什么不将整个连续范围用作超参数?p > 1 p = 1.5 p = πp=2p=2p=2p>1p>1p>1p=1.5p=1.5p=1.5p=πp=πp=\pi 我想念什么?

1
稀疏的训练集是否会对SVM产生不利影响?
我正在尝试使用SVM将消息分类为不同的类别。我已经从训练集中汇编了一些理想的单词/符号列表。 对于表示消息的每个矢量,我将相应行设置为1是否存在该单词: “语料库”是:[玛丽,小羊羔,星星,闪烁] 第一条消息:“玛丽有只小羊羔”-> [1 1 1 0 0] 第二条消息:“闪烁的小星星”-> [0 1 0 1 1] 我认为这在SVM中是相当常见的设置,但是我的问题是,如果集合中包含成千上万个单词,那么实际上每条消息仅显示1-2个单词会怎样?我的训练向量集的线性相关性是否会对算法的收敛能力产生不利影响?


1
大规模PCA甚至可能吗?
主成分分析(PCA)的经典方法是在输入数据矩阵上进行,列的均值为零(然后PCA可以“最大化方差”)。通过将列居中可以轻松实现。但是,当输入矩阵稀疏时,居中的矩阵现在将变得稀疏,并且-如果矩阵很大,则不再适合内存。有针对存储问题的算法解决方案吗?

1
如何在ARIMA模型的观察值48中加入创新的离群值?
我正在处理数据集。使用一些模型识别技术后,我得出了一个ARIMA(0,2,1)模型。 我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值(IO)。 如何将这个离群值合并到模型中,以便将其用于预测?我不想使用ARIMAX模型,因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗? 以下是我的价值观: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

4
随机矩阵的稀疏诱导正则化
众所周知(例如在压缩感测领域),范数是“稀疏诱导的”,即如果我们最小化函数(对于固定矩阵A和向量→ b)f A ,→ b(→ X)= ‖ 甲→ X - → b ‖ 2 2 + λ ‖ → X ‖ 1为足够大的λ > 0,我们很可能为很多选择甲,→ bL1L1L_1AAAb⃗ b→\vec{b}fA,b⃗ (x⃗ )=∥Ax⃗ −b⃗ ∥22+λ∥x⃗ ∥1fA,b→(x→)=‖Ax→−b→‖22+λ‖x→‖1f_{A,\vec{b}}(\vec{x})=\|A\vec{x}-\vec{b}\|_2^2+\lambda\|\vec{x}\|_1λ>0λ>0\lambda>0AAAb⃗ b→\vec{b},和在结果→ x中具有许多完全为零的条目。λλ\lambdax⃗ x→\vec{x} 但是,如果我们最小化受该的条目的状态→ X为正,而总和到1,然后将大号1术语不具有任何影响(因为‖ → X ‖ 1 = 1通过法令)。在这种情况下,是否存在一个类似的L 1型正则化函数可以起作用,以鼓励生成的→ x稀疏?fA,b⃗ fA,b→f_{A,\vec{b}}x⃗ x→\vec{x}111L1L1L_1∥ X⃗ ∥1个= 1‖x→‖1=1\|\vec{x}\|_1=1大号1个L1L_1X⃗ x→\vec{x}

2
生成具有预定稀疏模式的对称正定矩阵
我正在尝试生成相关矩阵 p×pp×pp\times p(对称psd)具有预先指定的稀疏结构(由节点上的图形指定)。图中连接的节点具有相关性,其余全部为0,对角线全部为1。pppρ∼U(0,1)ρ〜ü(0,1个)\rho \sim U(0,1) 我曾尝试多次生成此矩阵,但很少能获得有效的相关矩阵。 有什么方法可以确保相关矩阵whp吗?请注意,我只能具有正相关,因此等不是一个选择。ρ∼U(−1,1)ρ〜ü(-1个,1个)\rho \sim U(-1,1) 任何帮助是极大的赞赏!

1
将神经网络与稀疏输入配合使用时应遵循哪些准则
我的输入极为稀疏,例如输入图像中某些特征的位置。此外,每个功能都可以进行多次检测(不确定是否会影响系统的设计)。我将其表示为k通道“二进制图像”,其中ON像素表示该特征的存在,反之亦然。我们可以看到这样的输入注定是非常稀疏的。 因此,在将稀疏数据与神经网络一起使用时,是否有任何建议,特别是代表检测/位置的数据?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.