Questions tagged «anomaly-detection»

9
我应该使用什么算法来检测时间序列的异常?
背景 我在网络运营中心工作,我们监视计算机系统及其性能。要监视的关键指标之一是当前连接到我们服务器的访问者/客户数量。为了使其可见,我们(Ops团队)收集了诸如时间序列数据之类的指标并绘制了图表。Graphite允许我们做到这一点,它有一个非常丰富的API,我可以用它来构建警报系统,以便在突然(主要是)突然下降和其他更改发生时通知我们的团队。目前,我已基于avg值设置了一个静态阈值,但是由于白天和一周中的不同负载(季节性因素),它不能很好地工作(存在很多假阳性)。 看起来像这样: 实际数据(一个度量标准的示例,时间范围为15分钟;第一个数字是用户数,第二个-时间戳): [{"target": "metric_name", "datapoints": [[175562.0, 1431803460], [176125.0, 1431803520], [176125.0, 1431803580], [175710.0, 1431803640], [175710.0, 1431803700], [175733.0, 1431803760], [175733.0, 1431803820], [175839.0, 1431803880], [175839.0, 1431803940], [175245.0, 1431804000], [175217.0, 1431804060], [175629.0, 1431804120], [175104.0, 1431804180], [175104.0, 1431804240], [175505.0, 1431804300]]}] 我要完成的工作 我创建了一个Python脚本,该脚本接收最近的数据点,将它们与历史平均值进行比较,并在发生突然变化或下降时发出警报。由于季节性因素,“静态”阈值无法正常运行,脚本会生成误报警报。我想提高警报算法的准确性,使其在不不断调整警报阈值的情况下工作。 我需要什么建议和发现的东西 通过谷歌搜索,我发现我正在寻找用于异常检测的机器学习算法(无监督算法)。进一步的调查表明,其中有很多,很难理解哪种情况适用于我的情况。由于我的数学知识有限,我无法阅读复杂的学者论文,并且正在寻找对该领域的初学者来说简单的东西。 我喜欢Python并且对R有点熟悉,因此很高兴看到这些语言的示例。请推荐一本好书或文章,这将有助于我解决问题。谢谢您的时间,请原谅我这么长时间的描述 有用的链接 类似问题: 时间序列和异常检测 使用Python进行时间序列异常检测 时间序列异常 时间序列异常检测算法 小波在基于时间序列的异常检测算法中的应用 我应该使用哪种算法? …

4
时间序列异常检测算法
我目前在R中使用Twitter的AnomalyDetection:https : //github.com/twitter/AnomalyDetection。该算法为具有季节性的数据提供时间序列异常检测。 问题:是否有与此类似的其他算法(控制季节性无关紧要)? 我正在尝试在数据上为尽可能多的时间序列算法评分,以便我可以选择最佳的算法。

2
具有虚拟功能(和其他离散/分类功能)的异常检测
tl; dr discrete在执行异常检测时,推荐的处理数据的方法是什么? categorical在执行异常检测时,推荐的处理数据的方法是什么? 该答案建议使用离散数据仅过滤结果。 也许用观察的机会代替类别值? 介绍 这是我第一次在此处发布信息,因此,如果在格式或使用正确的定义方面在技术上似乎不正确,那么我很想知道应该使用什么代替。 向前。 我最近参加了Andrew Ng 的机器学习课程 对于异常检测,我们已经教过如何确定给定特征/变量在数据集中的正态/高斯分布参数,然后在给定特定条件下确定一组选定的训练示例/观测值的概率高斯分布,然后取特征概率的乘积。xixi{x_i} 方法 选择我们认为可以解释所讨论活动的特征/变量: { x 1,x 2,… ,x i }xixix_i{x1,x2,…,xi}{x1,x2,…,xi}\{x_1, x_2,\dots,x_i\} 适合高斯的参数对于每个特征: σ2=1μj=1m∑i=1mx(i)jμj=1m∑i=1mxj(i)\mu_j = \frac{1}{m}\sum_{i = 1}^m x_j^{(i)} σ2=1m∑i=1m(x(i)j−μj)2σ2=1m∑i=1m(xj(i)−μj)2\sigma^2 = \frac{1}{m}\sum_{i = 1}^m (x_j^{(i)} - \mu_j)^2 对于每个训练样例,,计算: p (X )= Ñ Π Ĵ = 1个 p (X Ĵ …

1
稳健的PCA与稳健的Mahalanobis距离,可用于异常值检测
健壮的PCA(由Candes等人2009或Netrepalli等人2014年开发)是一种流行的多变量离群值检测方法,但考虑到协方差矩阵的鲁棒,规则化估计,马氏距离也可以用于离群值检测。我很好奇使用一种方法相对于另一种方法的(缺点)优势。 我的直觉告诉我,两者之间的最大区别是:当数据集为“小”(从统计意义上来说)时,稳健的PCA将给出较低等级的协方差,而稳健的协方差矩阵估计将给出完整的-由于Ledoit-Wolf正则化导致的秩协方差。这又如何影响离群值检测?


1
离群值和离群值之间的区别
我偶然发现了LOF度量中的“离群值”一词(局部离群值因子),我对离群值一词很熟悉(基本上是说谎者-实例不像其余实例那样)。 在异常检测的情况下,“ Inliers”是什么意思?以及它与异常值有何关系?

3
使用Python进行时间序列异常检测
我需要对几个时间序列数据集执行异常检测。我以前从未做过此事,希望能得到一些建议。我对python非常满意,因此我希望在其中实现解决方案(我的大部分代码在其他工作中都是python)。 数据描述:在过去的两年左右(即只有24-36个时间段)才刚刚开始收集每月的时间序列数据。从本质上讲,每月有多个指标被多个客户监视。 time_period client metric score 01-2013 client1 metric1 100 02-2013 client1 metric1 119 01-2013 client2 metric1 50 02-2013 client2 metric2 500 ... 这就是我的想法:将数据放入数据框(熊猫),然后为每个客户/指标对计算6个月的滚动平均值。如果当前时间段的值超过了基于6个月平均值的某个阈值,则升旗。这个问题似乎很简单。我只想确保我采取可靠的方法。 任何建议,以充实这一想法,将不胜感激。我知道这个问题有点抽象,对此我深表歉意。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.