Questions tagged «outlier»

2
用于在SQL表上进行自动异常检测的工具?
我有一个基本上是日志的大型SQL表。数据非常复杂,我试图在不了解所有数据的情况下找到某种方法来识别异常。我发现了很多用于异常检测的工具,但其中大多数都需要某种“中间人”,例如Elastic Search,Splunk等。 是否有人知道可以针对可建立基线并自动发出异常警报的SQL表运行的工具? 这听起来有些懒惰,但是当我了解每种事件类型的含义以及每种事件所涉及的其他字段时,我已经花了数十个小时编写个人的报告脚本,而且我不觉得自己能够更进一步地警告实际事件有意义的方式。该表有41列,仅触及5亿行(3年数据)。

2
可扩展的异常值/异常检测
我正在尝试使用Hadoop,Hive,Elastic Search(以及其他)建立大数据基础架构,并且我想对某些数据集运行一些算法。我希望算法本身具有可伸缩性,因此不包括使用诸如Weka,R甚至RHadoop之类的工具。该阿帕奇亨利马乌库似乎是一个不错的选择,它的特点为回归和聚类算法的任务。 我正在努力寻找一种异常或异常检测的解决方案。 由于Mahout具有隐马尔可夫模型和多种聚类技术(包括K-Means),所以我想知道是否有可能使用任何一种方法构建一个模型来检测时间序列中的异常值。如果有经验的人能给我建议,我将不胜感激 如果有可能的话 怎么做,再加上 对所涉及工作的估计 这种方法的准确性/问题。

4
气体消耗异常值检测-神经网络项目。结果不好
我试图通过建立神经网络模型来检测一些荷兰建筑物的能源消耗中的异常值。我的成绩很差,但找不到原因。 我不是专家,所以我想问你我可以改进什么,我做错了什么。这是完整的描述:https : //github.com/denadai2/Gas-consumption-outliers。 神经网络是具有反向传播的FeedFoward网络。如此处所述,我将数据集拆分为一个包含41'000行,9个要素的“小型”数据集,并尝试添加更多要素。 我训练了网络,但结果为14.14 RMSE,因此它无法很好地预测气体消耗,因此我无法连续运行良好的异常值检测机制。我发现在某些论文中,即使他们预测了每日或每小时的用电量,也存在诸如MSE = 0.01的误差。 我可以改善什么?我究竟做错了什么?你能看一下我的描述吗?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.