Questions tagged «outliers»

离群值是相对于数据集的简单表征而言似乎不寻常或描述得不好的观察结果。一种令人不适的可能性是,这些数据来自与打算研究的人群不同的人群。

4
使用标准偏差检测离群值
在这里提出我的问题之后,我想知道是否有赞成或反对使用标准偏差检测异常值的观点(例如,任何大于2个标准偏差的数据点都是异常值)。 我知道这取决于研究的背景,例如,一个48公斤的数据点在研究婴儿体重的过程中肯定是一个例外,而不是在研究成年人体重的过程中。 离群值是许多因素(例如数据输入错误)的结果。就我而言,这些过程是可靠的。 我想我要问的问题是:使用标准偏差是检测异常值的可靠方法吗?
27 outliers 


4
为什么RANSAC没有最广泛地用于统计?
来自计算机视觉领域,我经常使用RANSAC(随机样本共识)方法将模型拟合到具有许多异常值的数据。 但是,我从未见过统计学家使用过这种方法,而且一直给人一种不被认为是“统计上合理”的方法的印象。为什么?它本质上是随机的,这使得分析起来更加困难,但是引导方法也是如此。 还是仅仅是一个学术孤岛不互相交谈的情况?

3
小波在基于时间序列的异常检测算法中的应用
我已经开始通过安德鲁·摩尔(Andrew Moore)编写的《统计数据挖掘教程》来工作(强烈推荐给初次接触该领域的任何人)。我首先阅读了这份非常有趣的PDF,标题为“基于时间序列的异常检测算法简介”,其中Moore跟踪了创建算法以检测疾病暴发时使用的许多技术。在幻灯片的中间,第27页,他列出了许多其他用于检测爆发的“最新方法”。列出的第一个是小波。维基百科将小波描述为 振幅从零开始的波状振荡,先增大后减小,然后回零。通常可以将其可视化为“简短振荡” 但并未描述它们在统计学中的应用,我的Google搜索结果获得了学术论文,这些论文都假设小波如何与统计数据或该主题的完整书籍相关。 我希望对小波如何应用于时间序列异常检测有一个基本的了解,就像Moore在他的教程中说明其他技术一样。有人可以提供有关使用小波的检测方法如何工作的解释,或者可以提供有关此问题的可理解文章的链接吗?

3
偏态分布的异常值检测
根据离群点的经典定义,即数据点位于上四分位数或下四分位数的1.5 * IQR范围之外,假设存在非偏态分布。对于偏斜分布(指数分布,泊松分布,几何分布等),通过分析原始函数的变换是否是检测异常值的最佳方法? 例如,松散地由指数分布控制的分布,可以使用对数函数进行转换-在什么时候可以基于相同的IQR定义查找异常值?



2
观测级马氏距离的分布
如果我有多元正态iid样本并定义(这是使用矩阵进行加权的从采样点到矢量的马氏距离[平方] ),的分布是什么(样本均值使用样本协方差矩阵)?d 2 我(b ,甲)= (X 我 - b )' 甲- 1(X 我 - b )一甲X1,…,Xn∼Np(μ,Σ)X1,…,Xn∼Np(μ,Σ)X_1, \ldots, X_n \sim N_p(\mu,\Sigma)d2i(b,A)=(Xi−b)′A−1(Xi−b)di2(b,A)=(Xi−b)′A−1(Xi−b)d_i^2(b,A) = (X_i - b)' A^{-1} (X_i - b)aaaAAA ˉ X小号d2i(X¯,S)di2(X¯,S)d_i^2(\bar X,S)X¯X¯\bar XSSS 我正在看一篇声称它是,但这显然是错误的:使用(未知)总体均值向量可以得到的分布和协方差矩阵。当插入示例类似物时,应该获得Hotelling分布或缩放的分布,或类似的东西,而不是。我在Muirhead(2005)或Anderson(2003)或Mardia,Kent和Bibby(1979,2003 )中都找不到确切的结果。χ2pχp2\chi^2_pχ2pχp2\chi^2_pd2i(μ,Σ)di2(μ,Σ)d_i^2(\mu,\Sigma)T 2T 2T^{\ 2}F(⋅)F(⋅)F(\cdot)χ2pχp2\chi^2_p。显然,这些人没有理会异常的诊断,因为多元正态分布是完美的,并且每次收集多元数据时都容易获得:-/。 事情可能比这更复杂。Hotelling分布结果是基于假设矢量部分和矩阵部分之间的独立性而得出的。这种独立性适用于和,但它不再适用于和。T 2T 2T^{\ 2}X¯X¯\bar XSSSXiXiX_iSSS

1
检测计数数据中的异常值
我天真地认为这是一个相当直接的问题,涉及对许多不同数量的计数数据进行异常检测。具体来说,我想确定一系列计数数据中的一个或多个值相对于分布中其余计数是否高于或低于预期。 令人困惑的因素是,我需要对3500个分布执行此操作,其中一些分布可能适合零膨胀的过度分散的Poisson,而另一些分布可能最好拟合负二项式或ZINB,而另一些分布可能呈正态分布。因此,简单的Z分数或分布图不适用于大多数数据集。这是我要检测异常值的计数数据的示例。 counts1=[1 1 1 0 2 1 1 0 0 1 1 1 1 1 0 0 0 0 1 2 1 1 2 1 1 1 1 0 0 1 0 1 1 1 1 0 0 0 0 0 1 2 1 1 1 1 1 1 …

3
如何通过箱线图评估偏度?
如何查看通过此数据构建的箱线图来确定偏度: 340、300、520、340、320、290、260、330 一本书说:“如果下四分位数比中四分位数比中四分位数更远,则分布出现负偏斜。” 其他一些消息来源也大致相同。 我使用R建立了箱形图。如下所示: 我认为它是负偏斜的,因为较低的四分位数距离中位数比较高的四分位数更远。但是问题是当我使用另一种方法确定偏度时: 平均值(337.5)>中位数(325) 这表明数据正偏。我错过了什么?

2
引导程序-我需要先删除异常值吗?
我们已经对新产品功能进行了拆分测试,并希望衡量收入的增长是否显着。我们的观察结果绝对不是正态分布的(我们的大多数用户都没有消费,而在那些使用者中,它严重偏向许多小额支出者和一些非常大的支出者)。 我们已决定使用引导程序来比较均值,以解决数据没有正态分布的问题(附带的问题:这是引导程序的合法使用吗?) 我的问题是,在运行引导程序之前,是否需要从数据集中修剪异常值(例如,少数几个花费大的对象),还是没关系?

2
具有虚拟功能(和其他离散/分类功能)的异常检测
tl; dr discrete在执行异常检测时,推荐的处理数据的方法是什么? categorical在执行异常检测时,推荐的处理数据的方法是什么? 该答案建议使用离散数据仅过滤结果。 也许用观察的机会代替类别值? 介绍 这是我第一次在此处发布信息,因此,如果在格式或使用正确的定义方面在技术上似乎不正确,那么我很想知道应该使用什么代替。 向前。 我最近参加了Andrew Ng 的机器学习课程 对于异常检测,我们已经教过如何确定给定特征/变量在数据集中的正态/高斯分布参数,然后在给定特定条件下确定一组选定的训练示例/观测值的概率高斯分布,然后取特征概率的乘积。xixi{x_i} 方法 选择我们认为可以解释所讨论活动的特征/变量: { x 1,x 2,… ,x i }xixix_i{x1,x2,…,xi}{x1,x2,…,xi}\{x_1, x_2,\dots,x_i\} 适合高斯的参数对于每个特征: σ2=1μj=1m∑i=1mx(i)jμj=1m∑i=1mxj(i)\mu_j = \frac{1}{m}\sum_{i = 1}^m x_j^{(i)} σ2=1m∑i=1m(x(i)j−μj)2σ2=1m∑i=1m(xj(i)−μj)2\sigma^2 = \frac{1}{m}\sum_{i = 1}^m (x_j^{(i)} - \mu_j)^2 对于每个训练样例,,计算: p (X )= Ñ Π Ĵ = 1个 p (X Ĵ …

4
异常值的“框线图”定义的依据是什么?
Box和Whisker图的离群值的标准定义是范围之外的点,其中I Q R = Q 3 − Q 1和Q 1为数据的第一个四分位数和Q 3是数据的第三个四分位数。{Q1−1.5IQR,Q3+1.5IQR}{Q1−1.5IQR,Q3+1.5IQR}\left\{Q1-1.5IQR,Q3+1.5IQR\right\}IQR=Q3−Q1IQR=Q3−Q1IQR= Q3-Q1Q1Q1Q1Q3Q3Q3 此定义的依据是什么?在具有大量点的情况下,即使是完美的正态分布也会返回异常值。 例如,假设您从以下序列开始: xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025) 此序列创建了4000个数据点的百分位排名。 测试qnorm本系列的正态性会导致: shapiro.test(qnorm(xseq)) Shapiro-Wilk normality test data: qnorm(xseq) W = 0.99999, p-value = 1 ad.test(qnorm(xseq)) Anderson-Darling normality test data: qnorm(xseq) A = 0.00044273, p-value = 1 结果完全符合预期:正态分布的正态是正态的。创建一条qqnorm(qnorm(xseq))(按预期方式)直线数据: 如果创建了相同数据的箱线图,则boxplot(qnorm(xseq))产生结果: 当样本大小足够大时,箱形图不同于shapiro.test,ad.test或, qqnorm将几个点标识为离群值(如本例所示)。

1
我们可以使用留一法的均值和标准差来显示离群值吗?
假设我有正态分布的数据。对于数据的每个元素,我想检查它远离均值有多少SD。数据中可能有一个异常值(可能只有一个异常值,也可能是两个或三个),但是这个异常值基本上就是我要寻找的。从均值和标准差的计算中暂时排除我当前正在查看的元素是否有意义?我的想法是,如果它接近平均值,则不会产生任何影响。如果是离群值,则可能会影响均值和SD的计算,并降低检测到均值的可能性。我不是统计学家,因此不胜感激!

3
如何用极端离群值呈现箱形图?
我可以使用有关呈现某些数据的指导。 第一个图是细胞因子IL-10的病例对照比较。我已手动将y轴设置为包括99%的数据。 我之所以手动设置,是因为案例组具有极端的异常值。 我的合作者不愿对我们的数据集进行异常值移除。我可以接受,但他们宁愿不接受。那将是显而易见的解决方案。但是,如果我要保留所有数据而不是删除此异常值,那么如何最佳显示此箱线图?分割轴?仅使用第一个图并注意它被构造为包含所有数据是否可以接受?(此选项对我来说是不诚实的)。任何建议都很好。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.