统计和大数据 anomaly-detection

9

背景我在网络运营中心工作，我们监视计算机系统及其性能。要监视的关键指标之一是当前连接到我们服务器的访问者/客户数量。为了使其可见，我们（Ops团队）收集了诸如时间序列数据之类的指标并绘制了图表。Graphite允许我们做到这一点，它有一个非常丰富的API，我可以用它来构建警报系统，以便在突然（主要是）突然下降和其他更改发生时通知我们的团队。目前，我已基于avg值设置了一个静态阈值，但是由于白天和一周中的不同负载（季节性因素），它不能很好地工作（存在很多假阳性）。看起来像这样：实际数据（一个度量标准的示例，时间范围为15分钟；第一个数字是用户数，第二个-时间戳）： [{"target": "metric_name", "datapoints": [[175562.0, 1431803460], [176125.0, 1431803520], [176125.0, 1431803580], [175710.0, 1431803640], [175710.0, 1431803700], [175733.0, 1431803760], [175733.0, 1431803820], [175839.0, 1431803880], [175839.0, 1431803940], [175245.0, 1431804000], [175217.0, 1431804060], [175629.0, 1431804120], [175104.0, 1431804180], [175104.0, 1431804240], [175505.0, 1431804300]]}] 我要完成的工作我创建了一个Python脚本，该脚本接收最近的数据点，将它们与历史平均值进行比较，并在发生突然变化或下降时发出警报。由于季节性因素，“静态”阈值无法正常运行，脚本会生成误报警报。我想提高警报算法的准确性，使其在不不断调整警报阈值的情况下工作。我需要什么建议和发现的东西通过谷歌搜索，我发现我正在寻找用于异常检测的机器学习算法（无监督算法）。进一步的调查表明，其中有很多，很难理解哪种情况适用于我的情况。由于我的数学知识有限，我无法阅读复杂的学者论文，并且正在寻找对该领域的初学者来说简单的东西。我喜欢Python并且对R有点熟悉，因此很高兴看到这些语言的示例。请推荐一本好书或文章，这将有助于我解决问题。谢谢您的时间，请原谅我这么长时间的描述有用的链接类似问题：时间序列和异常检测使用Python进行时间序列异常检测时间序列异常时间序列异常检测算法小波在基于时间序列的异常检测算法中的应用我应该使用哪种算法？ …

69 machine-learning time-series python computational-statistics anomaly-detection

4

时间序列异常检测算法

我目前在R中使用Twitter的AnomalyDetection：https : //github.com/twitter/AnomalyDetection。该算法为具有季节性的数据提供时间序列异常检测。问题：是否有与此类似的其他算法（控制季节性无关紧要）？我正在尝试在数据上为尽可能多的时间序列算法评分，以便我可以选择最佳的算法。

24 r regression time-series anomaly-detection

2

具有虚拟功能（和其他离散/分类功能）的异常检测

tl; dr discrete在执行异常检测时，推荐的处理数据的方法是什么？ categorical在执行异常检测时，推荐的处理数据的方法是什么？该答案建议使用离散数据仅过滤结果。也许用观察的机会代替类别值？介绍这是我第一次在此处发布信息，因此，如果在格式或使用正确的定义方面在技术上似乎不正确，那么我很想知道应该使用什么代替。向前。我最近参加了Andrew Ng 的机器学习课程对于异常检测，我们已经教过如何确定给定特征/变量在数据集中的正态/高斯分布参数，然后在给定特定条件下确定一组选定的训练示例/观测值的概率高斯分布，然后取特征概率的乘积。xixi{x_i} 方法选择我们认为可以解释所讨论活动的特征/变量： { x 1，x 2，… ，x i }xixix_i{x1,x2,…,xi}{x1,x2,…,xi}\{x_1, x_2,\dots,x_i\} 适合高斯的参数对于每个特征： σ2=1μj=1m∑i=1mx(i)jμj=1m∑i=1mxj(i)\mu_j = \frac{1}{m}\sum_{i = 1}^m x_j^{(i)} σ2=1m∑i=1m(x(i)j−μj)2σ2=1m∑i=1m(xj(i)−μj)2\sigma^2 = \frac{1}{m}\sum_{i = 1}^m (x_j^{(i)} - \mu_j)^2 对于每个训练样例，，计算： p （X ）= Ñ Π Ĵ = 1个 p （X Ĵ …

18 machine-learning categorical-data outliers discrete-data anomaly-detection

1

稳健的PCA与稳健的Mahalanobis距离，可用于异常值检测

健壮的PCA（由Candes等人2009或Netrepalli等人2014年开发）是一种流行的多变量离群值检测方法，但考虑到协方差矩阵的鲁棒，规则化估计，马氏距离也可以用于离群值检测。我很好奇使用一种方法相对于另一种方法的（缺点）优势。我的直觉告诉我，两者之间的最大区别是：当数据集为“小”（从统计意义上来说）时，稳健的PCA将给出较低等级的协方差，而稳健的协方差矩阵估计将给出完整的-由于Ledoit-Wolf正则化导致的秩协方差。这又如何影响离群值检测？

17 pca outliers covariance-matrix robust anomaly-detection

7

异常与异常值之间的区别

在机器学习的背景下，离群值和异常之间有什么区别？我的理解是，他们两个都指同一件事。

13 outliers terminology anomaly-detection

1

离群值和离群值之间的区别

我偶然发现了LOF度量中的“离群值”一词（局部离群值因子），我对离群值一词很熟悉（基本上是说谎者-实例不像其余实例那样）。在异常检测的情况下，“ Inliers”是什么意思？以及它与异常值有何关系？

10 residuals outliers anomaly-detection

3

使用Python进行时间序列异常检测

我需要对几个时间序列数据集执行异常检测。我以前从未做过此事，希望能得到一些建议。我对python非常满意，因此我希望在其中实现解决方案（我的大部分代码在其他工作中都是python）。数据描述：在过去的两年左右（即只有24-36个时间段）才刚刚开始收集每月的时间序列数据。从本质上讲，每月有多个指标被多个客户监视。 time_period client metric score 01-2013 client1 metric1 100 02-2013 client1 metric1 119 01-2013 client2 metric1 50 02-2013 client2 metric2 500 ... 这就是我的想法：将数据放入数据框（熊猫），然后为每个客户/指标对计算6个月的滚动平均值。如果当前时间段的值超过了基于6个月平均值的某个阈值，则升旗。这个问题似乎很简单。我只想确保我采取可靠的方法。任何建议，以充实这一想法，将不胜感激。我知道这个问题有点抽象，对此我深表歉意。

10 machine-learning time-series python computational-statistics anomaly-detection

Questions tagged «anomaly-detection»