统计和大数据 algorithms

3

我将在统计入门级课程中介绍标准正态表，这让我感到奇怪：谁创建了第一个标准正态表？在计算机问世之前，他们是如何做到的？我不禁想到有人用手工方法算出一千个黎曼和。

61 normal-distribution algorithms history tables

7

我之前在StackOverflow上问过这个问题，但由于它在SO上没有任何答案，因此似乎在这里更合适。这是统计和编程之间的交集。我需要编写一些代码来进行PCA（主成分分析）。我浏览了众所周知的算法并实现了这一算法，据我所知，它等效于NIPALS算法。它可以很好地找到前2-3个主成分，但是收敛似乎很慢（大约数百到数千次迭代）。以下是我需要的详细信息：当处理大量特征（10,000到20,000数量级）和数百个样本量的样本时，该算法必须高效。它必须在没有像样的线性代数/矩阵库的情况下可以合理地实现，因为目标语言是D，但尚不存在，即使有，我也不想将其作为对相关项目的依赖项添加。附带说明一下，在同一个数据集上，R看起来非常快地找到了所有主成分，但是它使用了奇异值分解，这不是我想自己编写的东西。

54 pca algorithms model-evaluation high-dimensional

9

测量二维二进制矩阵的熵/信息/模式

我想测量二维二进制矩阵的熵/信息密度/图案相似度。让我显示一些图片以供说明：此显示应具有较高的熵：一种）这应该具有中等熵： B）最后，这些图片应该都具有接近零的熵： C） D） E）是否有一些捕获熵的索引，分别。这些显示的“样式”？当然，每种算法（例如，压缩算法；或ttnphns提出的旋转算法）都对显示器的其他功能敏感。我正在寻找一种尝试捕获以下属性的算法：旋转和轴向对称聚类量重复次数也许更复杂，算法可能对心理的“ 格式塔原理 ”的属性敏感，尤其是：接近定律：对称定律：即使距离很远，对称图像也可以集体感知：具有这些属性的显示应被赋予“低熵值”；具有相当随机/非结构化点的显示应该被分配一个“高熵值”。我知道，很可能没有一种算法可以捕获所有这些功能。因此，也非常欢迎提出仅针对某些功能甚至仅针对单个功能的算法的建议。特别是，我正在寻找具体的，现有的算法或特定的，可实现的想法（我将根据这些标准来授予赏金）。

53 algorithms binary-data entropy pattern-recognition information

6

高效的在线线性回归

我正在分析一些我想执行普通线性回归的数据，但是这是不可能的，因为我正在处理具有连续输入数据流的在线设置（这将很快对于内存变得太大）并且需要消耗参数时更新参数估算值。即我不能只将其全部加载到内存中并对整个数据集执行线性回归。我假设一个简单的线性多元回归模型，即 y = A x + b + ey=Ax+b+e\mathbf y = \mathbf A\mathbf x + \mathbf b + \mathbf e 创建线性回归参数和的连续更新估计的最佳算法是什么？b一种A\mathbf Abb\mathbf b 理想情况下：我想要一种算法，每次更新的空间为，时间复杂度最高，其中是自变量（）的维数，是因变量（）。ñ X中号ÿø（Ñ⋅ 中号）O(N⋅M)\mathcal O(N\cdot M)ñNNXx\mathbf x中号MMÿy\mathbf y 我希望能够指定一些参数来确定每个新样本更新多少参数，例如0.000001表示下一个样本将提供参数估计的百万分之一。对于遥远的过去样本，这将产生某种指数衰减。

53 time-series regression algorithms real-time

7

通用时间序列的周期检测

这篇文章是另一篇有关时间序列异常检测通用方法的文章的延续。基本上，在这一点上，我感兴趣的是一种鲁棒的方式来发现受大量噪声影响的通用时间序列的周期性/季节性。从开发人员的角度来看，我想要一个简单的界面，例如： unsigned int discover_period(vector<double> v); 其中v包含样本的数组在哪里，返回值是信号的周期。重点是，同样，我无法对所分析的信号做出任何假设。我已经尝试过基于信号自相关（检测相关图的峰值）的方法，但是它并不像我想要的那样健壮。

53 time-series algorithms frequency real-time

10

有什么好的算法可以估算巨大的一次读取数据集的中位数？

我正在寻找一种好的算法（意味着最小的计算量，最小的存储需求）来估计太大而无法存储的数据集的中值，这样每个值只能被读取一次（除非您明确存储该值）。可以假设的数据没有界限。只要知道精度，就可以近似。有指针吗？

47 algorithms median large-data

5

随机森林算法的优化实现

我注意到，有一些随机森林的实现，例如ALGLIB，Waffles和一些R包，例如randomForest。谁能告诉我这些库是否经过高度优化？它们是否基本上等同于《统计学习的要素》中详细介绍的随机森林，还是添加了很多额外的技巧？我希望这个问题足够具体。为了说明我正在寻找的答案类型，如果有人问我线性代数软件包BLAS是否高度优化，我想说它是非常高度优化的，除了非常特殊的应用之外，几乎不值得尝试进行改进。

44 random-forest algorithms model-evaluation

5

向前和向后算法与维特比算法有什么区别？

我想知道隐藏马尔可夫模型（HMM）中用于推理的前向后退算法和维特比算法之间的区别是什么。

44 algorithms hidden-markov-model viterbi-algorithm forward-backward

6

线性回归使用什么算法？

我通常会听说“普通最小二乘法”。那是用于线性回归的最广泛使用的算法吗？是否有其他理由使用其他理由？

42 regression least-squares algorithms computational-statistics numerics

3

隐马尔可夫模型和神经网络之间有什么区别？

我只是想弄清楚统计数字，所以对不起这个问题，我感到抱歉。我已经使用马尔可夫模型来预测隐藏状态（不正当赌场，掷骰子等）和神经网络来研究用户在搜索引擎上的点击。两者都有隐藏状态，我们试图使用观察来弄清楚。据我了解，它们都可以预测隐藏状态，所以我想知道何时在神经网络上使用马尔可夫模型？它们只是解决类似问题的不同方法吗？（我对学习感兴趣，但是我也有另一个动机，我有一个问题，我正在尝试使用隐藏的马尔可夫模型来解决，但是这使我大吃一惊，所以我很想知道是否可以改用其他东西。）

40 data-mining algorithms neural-networks markov-process

6

使用蒙特卡洛模拟的近似

我最近一直在研究Monte Carlo模拟，并一直使用它来近似常数，例如（矩形内的圆，比例区域）。ππ\pi 但是，我无法想到使用蒙特卡洛积分来近似估计 [欧拉数] 的值的相应方法。eee 您对如何做到这一点有什么看法吗？

35 simulation monte-carlo algorithms random-generation numerical-integration

6

数据挖掘：如何寻找功能形式？

我很好奇，可用于发现功能的函数形式重复的程序y = f(A, B, C) + error_term在那里我唯一的输入是一组观察（y，A，B和C）。请注意，的功能形式f未知。考虑以下数据集： AA BB CC DD EE FF == == == == == == 98 11 66 84 67 10500 71 44 48 12 47 7250 54 28 90 73 95 5463 34 95 15 45 75 2581 56 37 0 79 43 3221 …

34 regression machine-learning algorithms model-selection data-mining

1

标准和球形k均值算法之间的区别

我想了解一下，标准和球形k均值聚类算法之间的主要实现区别是什么。在每个步骤中，k均值都会计算元素向量和聚类质心之间的距离，并将文档重新分配给这个质心最接近的质心。然后，重新计算所有质心。在球面k均值中，所有向量均被归一化，距离度量为余弦不相似性。这是全部，还是还有其他东西？

28 clustering data-mining algorithms k-means

3

最好的强盗算法？

最著名的强盗算法是上置信界（UCB），它使此类算法普及。从那时起，我认为现在有了更好的算法。当前的最佳算法是什么（从经验性能或理论范围而言）？从某种意义上说，该算法是否最优？

27 machine-learning algorithms theory reinforcement-learning multiarmed-bandit

1

如何定义梯度下降的终止条件？

实际上，我想问你如何定义梯度下降的终止条件。我可以基于迭代次数来停止它，即考虑参数值进行100次迭代吗？还是应该等两个参数值'new'和'old'的差异小到可以说？这肯定会花费很多时间。10− 610-610^{-6} 什么是最好的方法？就我而言，即使一次迭代也要花费大量时间。在这种情况下，如果我等待第二种情况，我想可能甚至要花几周的时间。因此，我应该使用哪种方法。如何解决这种情况？

24 algorithms optimization gradient-descent

Questions tagged «algorithms»