我正在尝试使用Hadoop,Hive,Elastic Search(以及其他)建立大数据基础架构,并且我想对某些数据集运行一些算法。我希望算法本身具有可伸缩性,因此不包括使用诸如Weka,R甚至RHadoop之类的工具。该阿帕奇亨利马乌库似乎是一个不错的选择,它的特点为回归和聚类算法的任务。
我正在努力寻找一种异常或异常检测的解决方案。
由于Mahout具有隐马尔可夫模型和多种聚类技术(包括K-Means),所以我想知道是否有可能使用任何一种方法构建一个模型来检测时间序列中的异常值。如果有经验的人能给我建议,我将不胜感激
- 如果有可能的话
- 怎么做,再加上
- 对所涉及工作的估计
- 这种方法的准确性/问题。
1
这太模糊了,无法回答。时间序列太不同了,无法仅对它们进行k均值处理并得出任何有用的信息。这在很大程度上取决于您的数据。
—
已退出-Anony-Mousse 2014年
对于离群值检测,请查看ELKI中的算法。这似乎是离群值检测的最完整集合。
—
已退出-Anony-Mousse 2014年
较新的Elasticsearch版本具有内置的时间序列异常检测功能(我认为您必须购买X-Pack)。我不确定他们正在使用什么算法,但是可能值得研究一个现成的解决方案。
—
tom