我需要对几个时间序列数据集执行异常检测。我以前从未做过此事,希望能得到一些建议。我对python非常满意,因此我希望在其中实现解决方案(我的大部分代码在其他工作中都是python)。
数据描述:在过去的两年左右(即只有24-36个时间段)才刚刚开始收集每月的时间序列数据。从本质上讲,每月有多个指标被多个客户监视。
time_period client metric score
01-2013 client1 metric1 100
02-2013 client1 metric1 119
01-2013 client2 metric1 50
02-2013 client2 metric2 500
...
这就是我的想法:将数据放入数据框(熊猫),然后为每个客户/指标对计算6个月的滚动平均值。如果当前时间段的值超过了基于6个月平均值的某个阈值,则升旗。这个问题似乎很简单。我只想确保我采取可靠的方法。
任何建议,以充实这一想法,将不胜感激。我知道这个问题有点抽象,对此我深表歉意。
我不知道蟒蛇的方式,但这个问题是充满创意有关的一般方法:stats.stackexchange.com/questions/26688/...
—
rapaio
pypi.org/project/anomaly-detection这是在库中构建的,用于在python中进行异常检测,这类似于twitter异常检测。由于twitter异常检测代码是R语言。您的问题是上下文异常。Auto.arima模型也是如此
—
saravanan saminathan