Questions tagged «algorithms»

查找一类问题的解决方案所涉及的计算步骤的明确清单。


7
具有大量功能(> 10K)的最佳PCA算法?
我之前在StackOverflow上问过这个问题,但由于它在SO上没有任何答案,因此似乎在这里更合适。这是统计和编程之间的交集。 我需要编写一些代码来进行PCA(主成分分析)。我浏览了众所周知的算法并实现了这一算法,据我所知,它等效于NIPALS算法。它可以很好地找到前2-3个主成分,但是收敛似乎很慢(大约数百到数千次迭代)。以下是我需要的详细信息: 当处理大量特征(10,000到20,000数量级)和数百个样本量的样本时,该算法必须高效。 它必须在没有像样的线性代数/矩阵库的情况下可以合理地实现,因为目标语言是D,但尚不存在,即使有,我也不想将其作为对相关项目的依赖项添加。 附带说明一下,在同一个数据集上,R看起来非常快地找到了所有主成分,但是它使用了奇异值分解,这不是我想自己编写的东西。

9
测量二维二进制矩阵的熵/信息/模式
我想测量二维二进制矩阵的熵/信息密度/图案相似度。让我显示一些图片以供说明: 此显示应具有较高的熵: 一种) 这应该具有中等熵: B) 最后,这些图片应该都具有接近零的熵: C) D) E) 是否有一些捕获熵的索引,分别。这些显示的“样式”? 当然,每种算法(例如,压缩算法;或ttnphns提出的旋转算法)都对显示器的其他功能敏感。我正在寻找一种尝试捕获以下属性的算法: 旋转和轴向对称 聚类量 重复次数 也许更复杂,算法可能对心理的“ 格式塔原理 ”的属性敏感,尤其是: 接近定律: 对称定律:即使距离很远,对称图像也可以集体感知: 具有这些属性的显示应被赋予“低熵值”;具有相当随机/非结构化点的显示应该被分配一个“高熵值”。 我知道,很可能没有一种算法可以捕获所有这些功能。因此,也非常欢迎提出仅针对某些功能甚至仅针对单个功能的算法的建议。 特别是,我正在寻找具体的,现有的算法或特定的,可实现的想法(我将根据这些标准来授予赏金)。

6
高效的在线线性回归
我正在分析一些我想执行普通线性回归的数据,但是这是不可能的,因为我正在处理具有连续输入数据流的在线设置(这将很快对于内存变得太大)并且需要消耗参数时更新参数估算值。即我不能只将其全部加载到内存中并对整个数据集执行线性回归。 我假设一个简单的线性多元回归模型,即 y = A x + b + ey=Ax+b+e\mathbf y = \mathbf A\mathbf x + \mathbf b + \mathbf e 创建线性回归参数和的连续更新估计的最佳算法是什么?b一种A\mathbf Abb\mathbf b 理想情况下: 我想要一种算法,每次更新的空间为,时间复杂度最高,其中是自变量()的维数,是因变量()。ñ X中号ÿø(Ñ⋅ 中号)O(N⋅M)\mathcal O(N\cdot M)ñNNXx\mathbf x中号MMÿy\mathbf y 我希望能够指定一些参数来确定每个新样本更新多少参数,例如0.000001表示下一个样本将提供参数估计的百万分之一。对于遥远的过去样本,这将产生某种指数衰减。

7
通用时间序列的周期检测
这篇文章是另一篇有关时间序列异常检测通用方法的文章的延续。基本上,在这一点上,我感兴趣的是一种鲁棒的方式来发现受大量噪声影响的通用时间序列的周期性/季节性。从开发人员的角度来看,我想要一个简单的界面,例如: unsigned int discover_period(vector<double> v); 其中v包含样本的数组在哪里,返回值是信号的周期。重点是,同样,我无法对所分析的信号做出任何假设。我已经尝试过基于信号自相关(检测相关图的峰值)的方法,但是它并不像我想要的那样健壮。


5
随机森林算法的优化实现
我注意到,有一些随机森林的实现,例如ALGLIB,Waffles和一些R包,例如randomForest。谁能告诉我这些库是否经过高度优化?它们是否基本上等同于《统计学习的要素》中详细介绍的随机森林,还是添加了很多额外的技巧? 我希望这个问题足够具体。为了说明我正在寻找的答案类型,如果有人问我线性代数软件包BLAS是否高度优化,我想说它是非常高度优化的,除了非常特殊的应用之外,几乎不值得尝试进行改进。



3
隐马尔可夫模型和神经网络之间有什么区别?
我只是想弄清楚统计数字,所以对不起这个问题,我感到抱歉。我已经使用马尔可夫模型来预测隐藏状态(不正当赌场,掷骰子等)和神经网络来研究用户在搜索引擎上的点击。两者都有隐藏状态,我们试图使用观察来弄清楚。 据我了解,它们都可以预测隐藏状态,所以我想知道何时在神经网络上使用马尔可夫模型?它们只是解决类似问题的不同方法吗? (我对学习感兴趣,但是我也有另一个动机,我有一个问题,我正在尝试使用隐藏的马尔可夫模型来解决,但是这使我大吃一惊,所以我很想知道是否可以改用其他东西。)



1
标准和球形k均值算法之间的区别
我想了解一下,标准和球形k均值聚类算法之间的主要实现区别是什么。 在每个步骤中,k均值都会计算元素向量和聚类质心之间的距离,并将文档重新分配给这个质心最接近的质心。然后,重新计算所有质心。 在球面k均值中,所有向量均被归一化,距离度量为余弦不相似性。 这是全部,还是还有其他东西?


1
如何定义梯度下降的终止条件?
实际上,我想问你如何定义梯度下降的终止条件。 我可以基于迭代次数来停止它,即考虑参数值进行100次迭代吗? 还是应该等两个参数值'new'和'old'的差异小到可以说?这肯定会花费很多时间。10− 610-610^{-6} 什么是最好的方法?就我而言,即使一次迭代也要花费大量时间。在这种情况下,如果我等待第二种情况,我想可能甚至要花几周的时间。 因此,我应该使用哪种方法。如何解决这种情况?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.