Questions tagged «online»

在线算法是指迭代执行的计算,其中数据在计算过程中到达。对于针对Internet的问题,请使用“互联网”标签。



1
最新的流媒体学习
我最近一直在处理大型数据集,并发现了许多有关流方法的论文。仅举几例: 遵循规范的领导者和镜像后裔:等价定理和L1正则化(http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf) 流式学习:一次通过SVM(http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf) Pegasos:用于SVM的原始估计子GrAdient求解器http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf 还是在这里:SVM可以一次进行流学习一个示例吗? 流随机森林(http://research.cs.queensu.ca/home/cords2/ideas07.pdf) 但是,我无法找到有关它们之间如何比较的任何文档。我读过的每篇文章似乎都针对不同的数据集进行了实验。 我知道sofia-ml,vowpal wabbit,但与大量现有方法相比,它们似乎执行的方法很少! 不太常见的算法性能不够吗?是否有任何论文试图复习尽可能多的方法?

3
数据集更改后使用旧标准偏差计算新标准偏差
我的阵列nnn真实值,其具有平均μoldμold\mu_{old}和标准偏差σoldσold\sigma_{old}。如果将数组xixix_i元素替换为另一个元素xjxjx_j,则新的均值将为 μnew=μold+xj−xinμnew=μold+xj−xin\mu_{new}=\mu_{old}+\frac{x_j-x_i}{n} 这种方法的优点是,无论的值如何,都需要恒定的计算量。是否有任何的方法来计算σ Ñ Ë 瓦特使用σ ö 升d等的计算μ Ñ Ë 瓦特使用μ ö 升d?nnnσnewσnew\sigma_{new}σoldσold\sigma_{old}μnewμnew\mu_{new}μoldμold\mu_{old}

5
均值绝对偏差和大数据集的在线算法
我有一个小问题使我感到恐惧。我必须为多元时间序列的在线获取过程编写程序。在每个时间间隔(例如1秒),我都会得到一个新样本,该样本基本上是大小为N的浮点向量。我需要做的操作有些棘手: 对于每个新样本,我计算该样本的百分位数(通过对向量进行归一化,以使元素总和为1)。 我以相同的方式计算平均百分比矢量,但使用过去的值。 对于每个过去的值,我使用在步骤2中计算的全局平均百分比矢量来计算与该样本相关的百分比矢量的绝对偏差。这样,绝对偏差始终为0(当矢量等于平均值​​)之间的数字。向量)和2(当完全不同时)。 使用所有先前样本的偏差平均值,我计算出平均绝对偏差,该平均值也是0到2之间的一个数字。 我使用平均绝对偏差来检测新样本是否与其他样本兼容(通过将其绝对偏差与在步骤4计算的整个集合的平均绝对偏差进行比较)。 由于每次收集一个新样本时,全局平均值都会发生变化(因此平均绝对偏差也会发生变化),有没有一种方法可以计算此值而无需多次扫描整个数据集?(一次用于计算总体平均百分比,一次用于收集绝对偏差)。好的,我知道在不扫描整个集合的情况下计算全局平均值绝对容易,因为我只需要使用一个临时矢量来存储每个维的和,那么平均绝对偏差呢?它的计算包括abs()运算符,因此我需要访问所有过去的数据! 谢谢你的帮助。

3
在线学习和批处理学习有什么区别?
我目前正在阅读John Duchi和Yoram Singer撰写的论文《使用正反拆分进行有效的在线和批处理学习》。我对术语“在线”和“批处理”的使用感到非常困惑。 我认为“在线”是指我们在处理了一个单位的训练数据后更新了体重参数。然后,我们使用新的权重参数来处理训练数据的下一个单位。 但是,在上面的文章中,用法尚不清楚。

2
作为新观测数据流的方式递归更新MLE
一般问题 假设我们有iid数据x1x1x_1,,... \ sim f(x \,| \,\ boldsymbol {\ theta})流进来。我们要递归计算\ boldsymbol {\ theta}的最大似然估计。也就是说,已经计算了 \ hat {\ boldsymbol {\ theta}} _ {n-1} = \ underset {\ boldsymbol {\ theta} \ in \ mathbb {R} ^ p} {\ arg \ max} \ prod_ { i = 1} ^ {n-1} f(x_i \,| \,\ …

2
指数加权移动偏度/峰度
有众所周知的在线公式,用于计算过程的指数加权移动平均值和标准偏差。意思是(xn)n=0,1,2,…(xn)n=0,1,2,…(x_n)_{n=0,1,2,\dots} μn=(1−α)μn−1+αxnμn=(1−α)μn−1+αxn\mu_n = (1-\alpha) \mu_{n-1} + \alpha x_n 对于差异 σ2n=(1−α)σ2n−1+α(xn−μn−1)(xn−μn)σn2=(1−α)σn−12+α(xn−μn−1)(xn−μn)\sigma_n^2 = (1-\alpha) \sigma_{n-1}^2 + \alpha(x_n - \mu_{n-1})(x_n - \mu_n) 从中可以计算标准偏差。 在线计算加权的第三和第四中心矩有相似的公式吗?我的直觉是,他们应该采取以下形式 M3,n=(1−α)M3,n−1+αf(xn,μn,μn−1,Sn,Sn−1)M3,n=(1−α)M3,n−1+αf(xn,μn,μn−1,Sn,Sn−1)M_{3,n} = (1-\alpha) M_{3,n-1} + \alpha f(x_n,\mu_n,\mu_{n-1},S_n,S_{n-1}) 和 M4,n=(1−α)M4,n−1+αf(xn,μn,μn−1,Sn,Sn−1,M3,n,M3,n−1)M4,n=(1−α)M4,n−1+αf(xn,μn,μn−1,Sn,Sn−1,M3,n,M3,n−1)M_{4,n} = (1-\alpha) M_{4,n-1} + \alpha f(x_n,\mu_n,\mu_{n-1},S_n,S_{n-1},M_{3,n},M_{3,n-1}) 从中可以计算出偏度和峰度但我无法找到简单的封闭式-函数f和g的形式表达式。 ķ Ñ = 中号4 ,Ñ / σ 4 Ñ ˚F 克γn=M3,n/σ3nγn=M3,n/σn3\gamma_n = M_{3,n} …

3
在线学习中的正则化和功能扩展?
假设我有一个逻辑回归分类器。在正常的批处理学习中,我会使用正则化项来防止过度拟合并保持较小的体重。我还将规范化和缩放我的功能。 在在线学习环境中,我获得了连续的数据流。我对每个示例都进行了梯度下降更新,然后将其丢弃。我应该在在线学习中使用特征缩放和正则化术语吗?如果是,我该怎么办?例如,我没有一组可用于扩展的训练数据。我也没有设置验证来调整我的正则化参数。如果没有,为什么不呢? 在我的在线学习中,我不断获得大量示例。对于每个新示例,我都会做一个预测。然后在下一个时间步骤中,我得到了实际目标并进行了梯度下降更新。

1
“ Heywood Case”的确切定义是什么?
我一直在非正式地使用术语“ Heywood Case”来指代由于数值精度问题在线,有限响应迭代更新的方差估计变为负数的情况。(我使用的是Welford方法的一种变体来添加数据并删除较旧的数据。)我的印象是,它适用于因数值误差或建模误差而使方差估计值变为负数的任何情况,但同事我对这个术语的用法感到困惑。除了在因子分析中使用的Google搜索之外,它的搜索量很少,并且似乎是指负方差估计的结果。确切的定义是什么?最初的海伍德是谁?

2
在线估计四分位数而不存储观测值
我需要在不存储观测值的情况下,根据大量数据实时计算四分位数(Q1,中位数和Q3)。我首先尝试了P平方算法(Jain / Chlamtac),但对它却不满意(CPU使用量过多,至少对于我的数据集的精度没有把握)。 我现在使用FAME算法(Feldman / Shavitt)动态估算中值,然后尝试推导该算法以计算Q1和Q3: M = Q1 = Q3 = first data value step =step_Q1 = step_Q3 = a small value for each new data : # update median M if M > data: M = M - step elif M < data: M = M + step …

5
递归(在线)正则化最小二乘算法
谁能指出我的Tikhonov正则化(正则化最小二乘)在线(递归)算法的方向吗? 在离线环境,我将计算β = (X Ť X + λ我)- 1 X Ť ÿ使用在我的原始数据集λ是使用n重交叉验证中发现。一个新的ÿ值可以预测对于给定的X使用Ŷ = X Ť β。β^= (XŤX+ λ我)− 1XŤÿβ^=(XTX+λI)−1XTY\hat\beta=(X^TX+λI)^{−1}X^TYλλλÿyyXxxÿ= xŤβ^y=xTβ^y=x^T\hat\beta 在在线设置中,我不断绘制新的数据点。如何更新β当我绘制新的额外的数据样本不会对整个数据集做了充分的重新计算(原件+新)?β^β^\hat\beta

1
在线,可扩展的统计方法
这受到高效在线线性回归的启发,我发现这非常有趣。是否有专门用于大规模统计计算的文本或资源,通过这些文本或资源进行的数据集计算过大而无法放入主存储器中,并且可能变化太多而无法有效地进行子采样。例如,是否可以在线方式拟合混合效果模型?有没有人研究过用一阶SGD型技术替换MLE的标准二阶优化技术的效果?

1
离线学习与在线学习中的模型选择
最近,我一直在尝试学习有关在线学习的更多信息(这绝对令人着迷!),而我一直无法很好地掌握的一个主题是如何考虑离线与在线环境中的模型选择。具体而言,假设我们训练分类离线,基于一些固定数据集。例如,我们通过交叉验证来评估其性能特征,并以此方式选择最佳分类器。SSSDDD 这就是我一直在思考的问题:那么,如何将应用于在线设置呢?我们是否可以假设脱机找到的最佳作为在线分类器也能表现良好?收集一些数据来训练,然后使用相同的分类器并在找到相同参数的在线设置中“操作”它是否有意义,或者另一种方法会更好吗?在这些情况下有哪些警告?这里的主要结果是什么?依此类推。SSSSSSSSSSSSDDD 无论如何,现在已经存在了,我想我正在寻找的参考资料或资源将对我(以及希望其他人在思考这种事情!)有帮助,从而使他们从单纯地以离线方式进行思考过渡,并且随着我阅读的进展,以更连贯的方式发展思维框架来思考模型选择和这些问题。

2
增量高斯过程回归
我想使用在数据点上通过数据流一个一到达的滑动窗口来实现增量式高斯过程回归。 让表示输入空间的维数。因此,每个数据点x i具有d个元素。dddX一世xix_iddd 令为滑动窗口的大小。ñnn 为了做出预测,我需要计算语法矩阵的逆,其中K i j = k (x i,x j),k是平方指数核。ķKKķ我Ĵ= k (x一世,XĴ)Kij=k(xi,xj)K_{ij} = k(x_i, x_j) 为了避免K随着每个新数据点变大,我认为可以在添加新点之前删除最旧的数据点,这样可以防止gram增长。例如,让其中,Σ是权重的协方差和φ是由平方指数内核隐含的隐式映射函数。ķ= ϕ (X)ŤΣ φ (X)K=ϕ(X)TΣϕ(X)K = \phi(X)^{T}\Sigma\phi(X)ΣΣ\Sigmaϕϕ\phi 现在让 ]和X n e w = [ x t − n + 2 | 。。。| X Ť | X 吨+ 1 ],其中X “s的ð由1列的矩阵。X= [ xt − …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.