Questions tagged «outliers»

离群值是相对于数据集的简单表征而言似乎不寻常或描述得不好的观察结果。一种令人不适的可能性是,这些数据来自与打算研究的人群不同的人群。

5
数据清理会使统计分析的结果恶化吗?
在流行期间,由于病毒传播(例如2002年美国的西尼罗河病毒),人民抵抗力下降,食物或水的污染减少,蚊子。这些流行病将以每1至5年发生一次的异常值出现。通过消除这些异常值,我们将消除流行病的证据,这些证据构成了预测和疾病理解的重要组成部分。 在处理由流行病引起的异常值时是否需要清理数据? 是要改善结果还是使统计分析结果恶化?

1
稳健的PCA与稳健的Mahalanobis距离,可用于异常值检测
健壮的PCA(由Candes等人2009或Netrepalli等人2014年开发)是一种流行的多变量离群值检测方法,但考虑到协方差矩阵的鲁棒,规则化估计,马氏距离也可以用于离群值检测。我很好奇使用一种方法相对于另一种方法的(缺点)优势。 我的直觉告诉我,两者之间的最大区别是:当数据集为“小”(从统计意义上来说)时,稳健的PCA将给出较低等级的协方差,而稳健的协方差矩阵估计将给出完整的-由于Ledoit-Wolf正则化导致的秩协方差。这又如何影响离群值检测?


3
在财务时间序列中进行可靠的异常值检测
我正在寻找一些健壮的技术,以从财务时间序列数据(即tickdata)中删除异常值和错误(无论原因如何)。 逐笔的财务时间序列数据非常混乱。当交易所关闭时,它包含巨大的(时间)差距,而当交易所再次打开时,则存在巨大的跳跃。当交易所开放时,各种因素都会以错误的价格水平(没有发生)和/或不能代表市场的价格(例如,由于错误地输入了买入或卖出价而导致价格飙升)引入了交易。tickdata.com(PDF)撰写的这篇论文很好地概述了问题,但提供了一些具体的解决方案。 我在网上可以找到的大多数论文都提到了此问题,或者忽略了该问题(假定报价数据已被过滤),或者将该过滤作为某种庞大的交易模型的一部分,该模型隐藏了任何有用的过滤步骤。 有谁知道在这方面做更深入的工作? 更新: 这个问题表面上看起来很相似,但是: 财务时间序列是非周期性的(至少在刻度级别上)。 开放效果是一个大问题,因为即使您真的愿意(因为否则您一无所有),您也不能简单地将最后一天的数据用作初始化。外部事件可能导致新的一天的开盘价在绝对水平和波动性上都与前一天大相径庭。 传入数据的频率异常不规则。在一天中几乎每天打开和关闭时,每秒数据点的数量可能是一天中平均值的10倍。另一个问题涉及定期采样的数据。 金融数据中的“异常值”表现出一些特定的模式,可以使用不适用于其他领域的特定技术来检测这些模式,而我(在某种程度上)正在寻找这些特定技术。 在更极端的情况下(例如闪存崩溃),在更长的时间间隔(> 10分钟)内,异常值可能占数据的75%以上。另外,传入数据的(高)频率包含有关情况异常方面的一些信息。

5
根据平均绝对误差的箱线图删除异常值以改进回归模型是否作弊
我有一个用四种方法测试的预测模型,如下面的箱线图所示。模型预测的属性在0到8的范围内。 您可能会注意到,所有方法都指示一个上界离群值和三个下界离群值。我想知道从数据中删除这些实例是否合适?还是这是一种欺骗,以改善预测模型?

2
影响点,高杠杆点和离群点的精确含义和比较?
来自维基百科 影响性观察是那些对回归模型的预测具有相对较大影响的观察。 来自维基百科 杠杆点是在独立变量的极值或偏值处进行的那些观察(如果有的话),因此缺少相邻观察意味着拟合的回归模型将通过该特定观察。 为什么以下来自维基百科的比较 尽管影响点通常具有较高的杠杆作用,但高杠杆点不一定是影响点。

2
估计正态分布的参数:中位数而不是均值?
估计正态分布参数的常用方法是使用均值和样本标准差/方差。 但是,如果存在一些离群值,则中位数和与中位数的中位数偏差应该更健​​壮,对吗? 在某些数据集我想,通过估计正态分布N(median(x),median|x−median(x)|)N(median(x),median|x−median(x)|)\mathcal{N}(\text{median}(x), \text{median}|x - \text{median}(x)|)似乎产生更好的配合比经典N(μ^,σ^)N(μ^,σ^)\mathcal{N}(\hat\mu, \hat\sigma)用平均值和RMS偏差。 如果您假设数据集中存在一些离群值,是否有任何理由不使用中位数?您知道这种方法的参考吗?在Google上进行快速搜索并没有发现有用的结果来讨论此处使用中位数的好处(但显然,“正态分布参数估计中位数”不是一组非常具体的搜索字词)。 中位数偏差,是否有偏差?我应该乘它n−1nn−1n\frac{n-1}{n}减少偏见? 您是否知道其他分布(例如Gamma分布或指数修改的高斯分布)(在参数估计中需要偏度,而离群值确实弄乱了该值)的相似鲁棒参数估计方法吗?

3
稳健的均值估计中的速成过程
我有一堆(大约1000个)估计值,它们都应该是长期弹性的估计值。多一点的这些一半是使用方法A和使用方法B.带我读的东西,如“我认为B法估计的东西剩下的估计很不是方法的不同,因为估计是多少(50-60%)高”。我对稳健统计的了解几乎是零,所以我只计算了两个样本的样本均值和中位数...,我立即看到了差异。方法A非常集中,中位数和均值之间的差异很小,但是方法B样本变化很大。 我得出的结论是,离群值和测量误差使方法B的样本倾斜,因此我丢弃了大约50个值(约15%),这与理论非常不一致...并且突然之间,两个样本的均值(包括其CI)非常相似。密度图也是如此。 (为消除异常值,我查看了样本A的范围,并删除了样本B之外的所有样本点。)我想告诉你,我在哪里可以找到一些可靠的均值估算基础请允许我更严格地判断这种情况。并有一些参考。我不需要对各种技术有很深入的了解,而是通过对鲁棒估计方法的全面调查来阅读。 我在去除异常值后进行了t均值显着性检验,p值为0.0559(t约为1.9),对于全部样本,t stat约为4.5。但这并不是真正的重点,手段可能有所不同,但是如上所述,它们不应相差50-60%。而且我认为他们没有。

3
通过多项式回归了解置信带
我试图理解我在下面的图中看到的结果。通常,我倾向于使用Excel并获得线性回归线,但在以下情况下,我使用R并通过以下命令获得多项式回归: ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth() 所以我的问题可以归结为: 蓝色回归线周围的灰色区域(箭头1)是什么?这是多项式回归的标准偏差吗? 我可以说灰色区域(箭头2)外部的任何东西都是“离群值”,而灰色区域(箭头3)内部的所有东西都在标准偏差之内吗?

5
有没有检测异常值的简单方法?
我想知道是否有一种检测异常值的简单方法。 对于我的一个项目,基本上是受访者一周内参加体育锻炼的次数与一周内他们在家里吃饭(快餐)的次数之间的相关性,我画了一个散点图,从字面上删除了极端的数据点。(散点图显示负相关。) 这是基于价值判断(基于散点图,这些数据点显然是极端的)。我没有做任何统计检验。 我只是想知道这是否是一种处理异常值的好方法。 我有350个人的数据,因此丢失(说)20个数据点对我来说并不担心。

1
根据“ 2.5倍RMSE”剔除异常值
在Kahneman and Deaton(2010),作者写道:††^\dagger 该回归解释了37%的方差,均方根误差(RMSE)为0.67852。为了消除异常值和不合理的收入报告,我们删除了一些观察结果,即原木收入与其预测之间的差异的绝对值超过了RMSE的2.5倍。 这是惯例吗?这样做的直觉是什么?根据一开始可能未明确指定的模型定义离群值似乎有些奇怪。异常值的确定是否应该基于构成合理值的某些理论依据,而不是模型对实际值的预测能力如何? ††\dagger:丹尼尔·卡尼曼(Daniel Kahneman),安格斯·迪顿(Angus Deaton)(2010年):高收入可以改善人们对生活的评估,但不能改善情感幸福感。美国国家科学院院刊,2010年9月,107(38)16489-16493;DOI:10.1073 / pnas.1011492107


2
在估算数据中使用邻居信息或查找偏离数据(在R中)
我有一个数据集,假设最近的邻居是最好的预测变量。只是可视化的双向梯度的完美示例- 假设我们缺少一些值,可以很容易地根据邻居和趋势进行预测。 R中的对应数据矩阵(用于锻炼的虚拟示例): miss.mat <- matrix (c(5:11, 6:10, NA,12, 7:13, 8:14, 9:12, NA, 14:15, 10:16),ncol=7, byrow = TRUE) miss.mat [,1] [,2] [,3] [,4] [,5] [,6] [,7] [1,] 5 6 7 8 9 10 11 [2,] 6 7 8 9 10 NA 12 [3,] 7 8 9 10 11 12 13 …

1
套索的LARS与坐标下降
使用LARS [1]与使用坐标下降来拟合L1正则化线性回归有什么优缺点? 我主要对性能方面感兴趣(我的问题往往有N成千上万且p小于20。)但是,任何其他见解也将受到赞赏。 编辑:自从我发布问题以来,chl亲切地指出了Friedman等人的论文[2],其中坐标下降比其他方法快得多。如果是这样,作为执业医生,我是否应该忘掉LARS来支持协调下降? [1]埃弗隆·布拉德利;海蒂·特雷弗;约翰·斯通,伊恩和蒂布希拉尼·罗伯特(2004)。“最小角度回归”。统计年鉴32(2):第407-499页。 [2] Jerome H. Friedman,Trevor Hastie,Rob Tibshirani,“通过坐标下降的广义线性模型的正则化路径”,《统计软件》,第1卷。33,第1期,2010年2月。

4
从样本中分离出两个总体
我正在尝试从单个数据集中分离出两组值。我可以假设其中一个总体是正态分布的,并且至少是样本大小的一半。第二个的值都低于或高于第一个的值(分布未知)。我要尝试做的是找到上限和下限,以将正常分布的人群与其他人群隔离开来。 我的假设为我提供了起点: 样本四分位数范围内的所有点均来自正态分布的总体。 我正在尝试测试是否将异常值从样本的其余部分中提取出来,直到它们不适合正态分布总体的第3个标准差。这不是理想的,但似乎会产生足够的结果。 我的假设在统计上合理吗?有什么更好的方法来解决这个问题? ps请修复某人的标签。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.