Questions tagged «outliers»

离群值是相对于数据集的简单表征而言似乎不寻常或描述得不好的观察结果。一种令人不适的可能性是,这些数据来自与打算研究的人群不同的人群。


2
异常检测:使用什么算法?
背景信息:我正在开发一个分析临床数据的系统,以过滤掉可能是错别字的难以置信的数据。 到目前为止,我做了什么: 为了量化真实性,到目前为止,我的尝试是对数据进行归一化,然后根据点p与集合D中已知数据点的距离(=训练集合)计算点p的真实性值: plausibility(p)=∑q∈DGauss(distance(p,q))plausibility(p)=∑q∈DGauss(distance(p,q))\text{plausibility}(p)=\sum_{q\in D}\text{Gauss}(\text{distance}(p,q)) 通过这种量化,我可以选择一个阈值,将合理的数据与不可信的数据分开。我正在使用python / numpy。 我的问题: 该算法无法检测独立的维度。理想情况下,我可以将关于记录的所有信息放入算法中,让它自己发现维度X不会影响记录的合理性。 该算法不适用于布尔值或选择输入等离散值。它们可以映射到连续值上,但是与Select 3相比,Select 1与Select 2更接近Select 2是违反直觉的。 题: 我应该为该任务寻找哪种算法?似乎有很多选择,包括基于最近邻居,基于聚类和统计方法。另外,我很难找到有关这种复杂性异常检测的论文。 任何建议都受到高度赞赏。 [编辑]示例: 假设数据由一个人的身高,一个人的体重和时间戳组成-因此它是3D数据。体重和身高是相关的,但时间戳是完全独立的。如果仅考虑欧几里德距离,则必须选择一个小的阈值以适合我的大多数交叉验证数据。理想情况下,该算法将只忽略时间戳记维度,因为确定记录是否合理是无关紧要的,因为时间戳记与任何其他维度都不相关。任何时间戳都是合理的。 另一方面,可以组成一些示例,其中时间戳确实很重要。例如,特征X的值Y在某个日期之前而不是某个日期之后测量时可能是合理的。

1
如何在ARIMA模型的观察值48中加入创新的离群值?
我正在处理数据集。使用一些模型识别技术后,我得出了一个ARIMA(0,2,1)模型。 我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值(IO)。 如何将这个离群值合并到模型中,以便将其用于预测?我不想使用ARIMAX模型,因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗? 以下是我的价值观: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
具有均匀和不均匀容器的直方图
这个问题描述了均匀和不均匀直方图之间的基本区别。和这个问题讨论经验法则用于拾取均匀直方图的仓的数量优化(在某些意义上)该直方图表示该数据的样品绘制的分布程度。 我似乎找不到关于均匀和非均匀直方图的同类“最优性”讨论。我有一个离群点很远的聚类非参数分布,因此直觉上不均匀的直方图更有意义。但我希望对以下两个问题进行更精确的分析: 统一bin直方图何时比不均匀bin更好? 对于不均匀的直方图,有多少个bin? 对于不均匀的直方图,我认为是最简单的情况,我们从未知分布中抽取样本,对所得的值进行排序,然后将它们分成 bin,这样每个bin都具有个样本(假设对于某个大整数,)。通过取bin i中值的与bin i + 1中值的\ min之间的中点来形成范围。这里和这里的链接描述了这些类型的非均匀直方图。ññnññnķķkķñķñ\frac{k}{n}Ñ ≡ Ç ķñ≡Cķn \equiv c kCCc最大值最大值\max一世一世i分分\min我+ 1一世+1个i+1

2
有影响的残差与异常值
首先,我应该声明已经在该站点上搜索了答案。我或者没有找到可以回答我问题的问题,或者我的知识水平太低,以至于我没有意识到自己已经阅读了答案。 我正在为AP统计考试学习。我必须学习线性回归,主题之一是残差。它有一份第253页的统计和数据分析简介副本。 双变量数据集中的异常点是那些在方向或方向上与散点图中的大多数其他点都偏离的点Xxxyyy 如果观察值的值与其余数据(在方向上与其余数据分开)相距甚远,则可能是有影响的观察。为了确定该观察结果是否确实具有影响力,我们评估该观察结果的去除是否对最小二乘法斜率或截距的值有很大影响。xxxxxx 如果观察值具有较大的残差,则为异常值。离群值观察值在方向上远离最小二乘法线。yyy Stattreck.com列出了四种根据残差确定异常值的方法: 与整体模式差异很大的数据点称为离群值。有四种方法可以将数据点视为异常值。 与其他数据点相比,它可能具有极限X值。 与其他数据点相比,它可能具有极高的Y值。 它可能具有极高的X和Y值。 即使没有极高的X或Y值,也可能与其余数据相距甚远。 这两个来源似乎相互冲突。谁能帮我消除困惑。另外,如何定义极端。如果数据点位于(Q1-1.5IQR,Q3 + 1.5IQR)之外,则AP Statistics使用该规则,这是一个异常值。我不知道如何仅通过残差图来应用它。

4
在线离群值检测
我想处理自动分段的显微镜图像,以检测故障图像和/或故障分割,作为高通量成像管线的一部分。可以为每个原始图像和分割计算很多参数,当图像有缺陷时,这些参数将变为“极端”。例如,图像中的气泡将导致异常,例如检测到的“单元”之一的尺寸过大,或者整个场的单元计数异常低。我正在寻找一种检测这些异常情况的有效方法。理想情况下,我更喜欢一种具有以下属性的方法(大致按需要排序): 不需要预定义的绝对阈值(尽管可以使用预定义的百分比); 不需要将所有数据都存储在内存中,甚至不需要查看所有数据;该方法具有自适应性并可以在看到更多数据时更新其标准就可以了;(显然,以很小的概率,异常可能会在系统看到足够的数据之前发生,并且会丢失等)。 是可并行化的:例如,在第一轮中,许多并行工作的节点会产生中间候选异常,然后在第一轮完成后进行第二轮选择。 我正在寻找的异常情况并不细微。如果人们看一下数据的直方图,它们就是显而易见的类型。但是,所讨论的数据量以及在生成图像时实时执行此异常检测的最终目标,排除了需要人工评估者检查直方图的任何解决方案。 谢谢!
10 outliers  online 

1
离群值和离群值之间的区别
我偶然发现了LOF度量中的“离群值”一词(局部离群值因子),我对离群值一词很熟悉(基本上是说谎者-实例不像其余实例那样)。 在异常检测的情况下,“ Inliers”是什么意思?以及它与异常值有何关系?

2
如何使用tsoutliers软件包和auto.arima解释和进行预测
我有1993年至2015年的月度数据,并希望对这些数据进行预测。我使用tsoutliers包检测异常值,但是我不知道如何继续使用我的数据集进行预测。 这是我的代码: product.outlier<-tso(product,types=c("AO","LS","TC")) plot(product.outlier) 这是我从tsoutliers包的输出 ARIMA(0,1,0)(0,0,1)[12] Coefficients: sma1 LS46 LS51 LS61 TC133 LS181 AO183 AO184 LS185 TC186 TC193 TC200 0.1700 0.4316 0.6166 0.5793 -0.5127 0.5422 0.5138 0.9264 3.0762 0.5688 -0.4775 -0.4386 s.e. 0.0768 0.1109 0.1105 0.1106 0.1021 0.1120 0.1119 0.1567 0.1918 0.1037 0.1033 0.1040 LS207 AO237 TC248 AO260 AO266 0.4228 …

2
模型构建过程是交互式的时进行回测或交叉验证
我有一些预测模型,我想对其性能进行回测(即,获取我的数据集,将其“倒带”到上一个时间点,并查看该模型的预期性能)。 问题是我的某些模型是通过交互过程构建的。例如,按照弗兰克·哈雷尔(Frank Harrell)的回归建模策略中的建议,在一个模型中,我使用了受限制的三次样条来处理特征与响应之间可能的非线性关联。我根据领域知识和关联强度的单变量度量来分配每个样条的自由度。但是,我要允许模型的自由度显然取决于数据集的大小,在进行回测时,数据集的变化很大。如果我不想在每次对模型进行回测时都分别手动选择自由度,那么我还有其他选择吗? 再例如,我目前正在通过发现具有高杠杆作用的点来进行离群值检测。如果我愿意手工进行此操作,则只需查看每个高杠杆数据点,仔细检查数据是否干净,然后过滤掉或手工清理。但这依赖于很多领域知识,因此我不知道如何使过程自动化。 我将不胜感激建议和解决方案,无论是(a)解决模型构建过程中交互部分自动化的一般问题,还是(b)针对这两种情况的具体建议。谢谢!

2
均值vs中位数
我有一个数据集,其中包含对紧急服务的所有呼叫以及急救部门的响应时间。他们承认响应时间存在一些错误,因为在某些情况下他们没有开始记录(因此值为0)或没有停止时钟(因此值可能非常高)。 我想找出中心趋势,我想知道使用中位数或修整后的平均值来消除异常值是否更好?

6
如何准备/构造异常检测功能(网络安全数据)
我的目标是使用群集/异常检测(用于入侵检测)分析网络日志(例如Apache,syslog,Active Directory安全审核等)。 从日志中,我有很多文本字段,例如IP地址,用户名,主机名,目标端口,源端口等等(总共15-20个字段)。我不知道日志中是否存在一些攻击,并且想突出显示最可疑的事件(异常值)。 通常,异常检测将概率/频率较低的点标记为异常。但是,一半的日志记录包含字段的唯一组合。因此,数据集中的一半记录将具有最低的频率。 如果我使用基于聚类的异常检测(例如,找到聚类,然后选择远离所有聚类中心的点),则需要找到不同点之间的距离。由于我有15-20个字段,因此它将是一个多维空间,其中维是用户名,端口,IP地址等。但是,马氏距离只能应用于正态分布的要素。这意味着无法找到数据点之间的距离并构造聚类... 例如,假设我在20条记录的数据集中有用户Alice,Bob,Carol,Dave,Eve和Frank。它们在数据库中可能具有以下发生次数:2,5,2,5,1,5。如果我只是将用户名映射到数字,例如 Alice --> 1 Bob --> 2 Carol --> 3 Dave --> 4 Eve --> 5 Frank --> 6 然后,我的用户名概率分布将如下所示: p(1)= 0.1,p(2)= 0.25,p(3)= 0.1,p(4)= 0.25,p(5)= 0.05,p(6)= 0.25 当然,这不是正态分布,也没有太大意义,因为我可以以任何不同的方式映射用户名... 因此,用户名,操作,端口号,IP地址等字段到数字的简单映射不会带来任何影响。 因此,我想问一下,通常如何处理文本字段/构造特征以使无监督的异常/异常检测成为可能? 编辑:数据结构。 我在数据库表中大约有100列,其中包含来自Active Directory事件的信息。从这100列中,我选择最重要的(从我的角度来看):SubjectUser,TargetUser,SourceIPaddress,SourceHostName,SourcePort,计算机,DestinationIPaddress,DestinationHostName,DestinationPort,操作,状态,FilePath,EventID,WeekDay,DayTime。 事件是Active Directory事件,其中EventID定义了记录的内容(例如,创建Kerberos票证,用户登录,用户注销等)。 数据样本如下所示: + ------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -+ | ID …

1
为局部离群因子(LOF)检测分析选择k值
我有一组三维数据,并且尝试使用局部离群值因子分析来识别最独特或最奇怪的值。如何确定LOF分析中使用的k值?我知道k值决定了什么,因此使用不同的k会看到略有不同的结果,对此我并不感到惊讶,但是我不确定我的数据集是否存在应该将我推向另一个值的特征。 。谢谢!


1
库克距离极限值
我一直在阅读库克的距离,以找出对我的回归影响较大的离群值。在库克的原始研究中,他说,将临界值设为1应该可以确定影响者。但是,其他各种研究也使用或作为截止值。4n4n\frac{4}{n}4n−k−14n−k−1\frac{4}{n-k-1} 在我的研究中,我的残差都不是D大于1。但是,如果我使用作为截止,那么会有各种数据被认为是影响者的点。我决定测试删除这些数据点是否会对我的一般线性回归有所不同。我所有的静脉注射都保留了其重要性,并且没有明显的变化。4n4n\frac{4}{n}(4149=.026)(4149=.026)(\frac{4}{149}= .026) 我应该保留所有数据点并使用1的截止率吗?或删除它们?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.