Questions tagged «algorithms»

查找一类问题的解决方案所涉及的计算步骤的明确清单。

7
动态监控分位数的算法
我想估计一些数据的分位数。数据是如此之大,以致无法容纳在内存中。而且数据不是静态的,新数据不断涌现。有人知道有什么算法可以用非常有限的内存和计算来监视到目前为止观察到的数据的分位数吗?我发现P2算法很有用,但是对于我的数据(尾部分布非常繁重)来说,效果并不理想。


2
为什么通过数据SVD进行数据PCA?
这个问题是关于一种计算主成分的有效方法。 关于线性PCA的许多文章都主张对个案数据使用奇异值分解。也就是说,如果我们有数据并想用主成分替换变量(其列),则可以执行SVD:,奇异值(特征值的平方根)占据了主对角线,右特征向量是轴变量到轴分量的正交旋转矩阵,左特征向量像,仅在这种情况下。然后,我们可以将分量值计算为。X = û 小号V '小号V Ù V C ^ = X V = û 小号XX\bf XX = U S V′X=USV′\bf X=USV'小号S\bf SVV\bf VüU\bf UVV\bf VC=XV=USC=XV=US \bf C=XV=US 进行变量PCA的另一种方法是通过分解方阵(即可以是变量之间的相关或协方差等)。分解可以是特征分解或奇异值分解:对于正方形对称正半定矩阵,它们将给出特征值与和的对角线相同的结果。组件值将为。- [R [R = V 大号V '大号V C ^ = X VR=X′XR=X′X\bf R=X'XRR\bf R R=VLV′R=VLV′\bf R=VLV'LL\bf LVV\bf VC=XVC=XV\bf C=XV 现在,我的问题是:如果数据是一个大矩阵,并且案例数(通常是一个案例)比变量数大得多,那么方法(1)会比方法(2)慢得多),因为方法(1)将相当昂贵的算法(例如SVD)应用于大矩阵;它计算并存储巨大的矩阵,这在我们的情况下是我们真正不需要的(变量的PCA)。如果是这样,那么为什么这么多texbook似乎主张或仅提及方式(1)?也许这很有效,但我缺少了什么?üXX\bf XUU\bf U

2
是否可以累积一组描述大量样本的统计信息,以便随后生成箱线图?
我必须马上我是一个执业软件开发者,而不是一个统计学家澄清,而我的大学统计类是一个很长的时间以前... 就是说,我想知道是否存在一种用于累积描述性统计信息的方法,然后可以使用该方法来生成箱线图,而这并不需要存储一堆单独的样本? 我想做的是在复杂的多队列过程中生成队列服务时间的图形摘要。过去我曾经使用过一个名为tnftools的程序包,该程序包可以累积大量样本,然后将其后处理为响应时间和异常值的图表。但是tnftools不适用于当前平台。 理想情况下,我希望能够在流程运行时“即时”累积一组描述性统计信息,然后提取数据以按需进行分析。但是我不能简单地让进程积累样本,因为这样做会涉及内存/ IO对系统性能产生无法接受的影响。

6
隐马尔可夫模型问题的例子?
我读了很多隐藏的马尔可夫模型,并且自己能够编写一个相当基本的版本。 但是我似乎有两种主要学习方法。一种是将其读取并实现为代码(已完成),第二种是了解其在不同情况下的应用方式(因此,我可以更好地了解它与我可能正在处理的问题的关系)。到目前为止,我所做的所有示例都涉及某种DNA预测或抛硬币。 我想知道是否有任何资源可以解决其他马尔可夫问题(语言无关紧要,但希望能提供答案,这样我才能知道我是对还是错)?

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
模拟给定功率和互谱密度的时间序列
给定它们的协方差矩阵(它们的功率谱密度(PSD)和交叉功率谱密度(CSD)),我很难生成一组固定的彩色时间序列。 我知道,给定两个时间序列和,我可以使用许多广泛使用的例程来估算其功率谱密度(PSD)和交叉谱密度(CSD)。和Matlab等中的功能。PSD和CSD组成协方差矩阵: yI(t)yI(t)y_{I}(t)yJ(t)yJ(t)y_{J}(t)psd()csd()C(f)=(PII(f)PJI(f)PIJ(f)PJJ(f)),C(f)=(PII(f)PIJ(f)PJI(f)PJJ(f)), \mathbf{C}(f) = \left( \begin{array}{cc} P_{II}(f) & P_{IJ}(f)\\ P_{JI}(f) & P_{JJ}(f) \end{array} \right)\;, ,通常是频率的函数。 fff 如果我想做相反的事情怎么办? 给定协方差矩阵,如何生成和y_ {J}(t)的实现?yI(t)yI(t)y_{I}(t)yJ(t)yJ(t)y_{J}(t) 请包括任何背景理论,或指出执行此操作的任何现有工具(Python中的任何工具都很好)。 我的尝试 以下是我尝试过的内容以及我注意到的问题的描述。本书读了很长一段时间,如果其中包含误用的术语,则抱歉。如果可以指出错误的地方,那将非常有帮助。但是我的问题是上面的粗体字。 PSD和CSD可以写为时间序列傅立叶变换的乘积的期望值(或整体平均值)。因此,协方差矩阵可以表示为: C(f)=2τ⟨Y†(f)Y(f)⟩,C(f)=2τ⟨Y†(f)Y(f)⟩, \mathbf{C}(f) = \frac{2}{\tau} \langle \mathbf{Y}^{\dagger}(f) \mathbf{Y}(f) \rangle \;, 其中 ÿ(˚F)= (y〜一世(f)ÿ〜Ĵ(f))。ÿ(F)=(ÿ〜一世(F)ÿ〜Ĵ(F))。 \mathbf{Y}(f) = \left( \begin{array}{cc} \tilde{y}_{I}(f) & \tilde{y}_{J}(f) \end{array} \right) \;. 协方差矩阵是Hermitian矩阵,其实特征值可以为零或为正。因此,可以将其分解为 Ç(˚F)= X(f)λ1个2(f)一世λ12(f)X†(f),C(F)=X(F)λ1个2(F)一世λ1个2(F)X†(F), \mathbf{C}(f) …



2
速度,PCA,LASSO,弹性网的计算费用
我正在尝试比较Hastie等人中区分的三组线性回归方法的计算复杂度/估计速度。“统计学习的要素”(第二版),第3章: 子集选择 收缩方式 使用派生输入方向的方法(PCR,PLS) 进行比较可能很粗略,只是为了给出一些想法。我认为答案可能取决于问题的严重程度以及如何适应计算机体系结构,因此举一个具体的例子,可以考虑样本量为500和50个候选回归变量。我最感兴趣的是计算复杂性/估计速度背后的动机,而不是对于给定示例而言,使用某个处理器需要多长时间。

9
成对的马氏距离
我需要在协变量的矩阵中,计算每对观测值之间R中的样本马氏距离。我需要一个有效的解决方案,即仅计算距离,并最好在C / RCpp / Fortran等中实现。我假设总体协方差矩阵不知道,并使用样本协方差矩阵。Ñ (ñ - 1 )/ 2 Σn×pñ×pn \times pn(n−1)/2ñ(ñ-1个)/2n(n-1)/2ΣΣ\Sigma 我对这个问题特别感兴趣,因为似乎没有用于计算R中成对的马氏距离的“共识”方法,即,dist既未在函数中也未在cluster::daisy函数中实现。mahalanobis没有程序员的额外工作,该函数不会计算成对距离。 这里已经问过R中的成对马氏距离,但那里的解决方案似乎不正确。 这是一种正确但效率极低的方法(因为计算了距离):n×nñ×ñn \times n set.seed(0) x0 <- MASS::mvrnorm(33,1:10,diag(c(seq(1,1/2,l=10)),10)) dM = as.dist(apply(x0, 1, function(i) mahalanobis(x0, i, cov = cov(x0)))) 这很容易用C语言编写自己的代码,但是我觉得这个基本的东西应该有一个预先存在的解决方案。有一个吗? 还有其他一些不足的解决方案:当仅需要唯一距离时,HDMD::pairwise.mahalanobis()计算距离。似乎很有希望,但是我不希望我的功能来自依赖于的程序包,这严重限制了其他人运行我的代码的能力。除非该实现是完美的,否则我宁愿自己编写。有人对此功能有经验吗?n (n − 1 )/ 2n×nñ×ñn \times nn(n−1)/2ñ(ñ-1个)/2n(n-1)/2compositions::MahalanobisDist()rgl
18 r  algorithms  distance 

1
极端随机森林与随机森林有何不同?
ER是否更有效地实现(类似于Extreme Gradient Boosting梯度提升)?从实际角度来看,差异重要吗?有实现它们的R包。是新的算法,不仅在效率方面,还是在某些其他方面,都克服了“通用”实现(R的RandomForest包)? 极端随机森林http://link.springer.com/article/10.1007%2Fs10994-006-6226-1


1
在矩阵中添加一行后更新SVD分解
假设我有一个致密的基质的米× Ñ大小,SVD分解甲 = û 小号V ⊤。在我可以计算SVD如下:。AA \textbf{A}m×nm×nm \times nA=USV⊤.A=USV⊤.\mathbf{A}=\mathbf{USV}^\top.Rsvd(A) 如果一个新的个行被添加到(m+1)(m+1)(m+1),可以计算基于旧一个新的SVD分解(即通过使用 ü,小号和 V),不从头重新计算SVD?AA\mathbf AUU\mathbf USS\mathbf SVV\mathbf V

3
R中的glm函数使用哪种优化算法?
可以使用以下代码在R中执行logit回归: > library(MASS) > data(menarche) > glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age, + family=binomial(logit), data=menarche) > coefficients(glm.out) (Intercept) Age -21.226395 1.631968 看来优化算法已经收敛-存在有关费舍尔评分算法的步数的信息: Call: glm(formula = cbind(Menarche, Total - Menarche) ~ Age, family = binomial(logit), data = menarche) Deviance Residuals: Min 1Q Median 3Q Max -2.0363 -0.9953 -0.4900 0.7780 1.3675 Coefficients: …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.