可扩展的异常值/异常检测


10

我正在尝试使用Hadoop,Hive,Elastic Search(以及其他)建立大数据基础架构,并且我想对某些数据集运行一些算法。我希望算法本身具有可伸缩性,因此不包括使用诸如Weka,R甚至RHadoop之类的工具。该阿帕奇亨利马乌库似乎是一个不错的选择,它的特点为回归和聚类算法的任务

我正在努力寻找一种异常或异常检测的解决方案。

由于Mahout具有隐马尔可夫模型和多种聚类技术(包括K-Means),所以我想知道是否有可能使用任何一种方法构建一个模型来检测时间序列中的异常值。如果有经验的人能给我建议,我将不胜感激

  1. 如果有可能的话
  2. 怎么做,再加上
  3. 对所涉及工作的估计
  4. 这种方法的准确性/问题。

1
这太模糊了,无法回答。时间序列太不同了,无法仅对它们进行k均值处理并得出任何有用的信息。这在很大程度上取决于您的数据。
已退出-Anony-Mousse 2014年

1
对于离群值检测,请查看ELKI中的算法。这似乎是离群值检测的最完整集合。
已退出-Anony-Mousse 2014年

较新的Elasticsearch版本具有内置的时间序列异常检测功能(我认为您必须购买X-Pack)。我不确定他们正在使用什么算法,但是可能值得研究一个现成的解决方案。
tom

Answers:


7

t-digest与p-square算法相比如何?
大卫·马克思

感谢您的回答:这是一个计算极端分位数的简单模型,我认为它将满足我的需求。但是,对于没有近乎平稳分布的更复杂的时间序列,此方法可能会失败,这就是我认为我们需要诸如Markov链之类的自适应对象的时候。
2014年

0

你可以参考我的相关H2O R或Python中的异常检测方法响应stackexchange,因为这是可扩展的了。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.