Questions tagged «outliers»

离群值是相对于数据集的简单表征而言似乎不寻常或描述得不好的观察结果。一种令人不适的可能性是,这些数据来自与打算研究的人群不同的人群。

13
在多元数据中识别异常值的最佳方法是什么?
假设我有一组包含至少三个变量的多变量数据。如何找到异常值?成对散点图将不起作用,因为离群值可能存在于3维中,而不是任何二维子空间中的离群值。 我不是在考虑回归问题,而是真正的多元数据。因此,涉及稳健回归或计算杠杆的答案无济于事。 一种可能是计算主成分分数,并在前两个分数的双变量散点图中寻找离群值。这样可以保证工作吗?有更好的方法吗?

6
基本数据检查测试
在我的工作中,我经常与其他人的数据集一起工作,非专家为我带来了临床数据,我帮助他们进行总结并进行统计检验。 我遇到的问题是,我带来的数据集几乎总是错字,不一致和其他各种问题。我很想知道其他人是否有标准测试,他们会尝试检查输入的任何数据集。 我过去常常为每个变量绘制直方图,但现在我意识到有很多可怕的错误可以在测试中幸免。例如,前几天我有一个重复测量数据集,对于某些人,该重复测量在时间2上与时间1上相同。这随后被证明是不正确的,正如您所期望的那样。另一个数据集包含一个个体,从非常严重的无序状态(以高分表示)变为无问题(以0表示)。这是不可能的,尽管我无法确切地证明这一点。 那么,我可以在每个数据集上运行哪些基本测试,以确保它们没有错别字并且不包含不可能的值? 提前致谢!

1
解释plot.lm()
我有一个关于解释R中plot(lm)生成的图的问题。我想知道你们是否可以告诉我如何解释比例位置图和杠杆剩余图?任何意见,将不胜感激。假设掌握统计,回归和计量经济学的基础知识。

14
在线检测一般时间序列的异常值的简单算法
我正在处理大量时间序列。这些时间序列基本上是每10分钟进行一次网络测量,其中一些是周期性的(即带宽),而另一些则不是(即路由流量)。 我想要一种用于进行在线“异常值检测”的简单算法。基本上,我想将每个时间序列的整个历史数据保存在内存中(或保存在磁盘上),并且我想检测实时场景中的任何异常值(每次捕获一个新样本)。实现这些结果的最佳方法是什么? 我目前正在使用移动平均线来消除一些噪音,但是接下来呢?对整个数据集而言,诸如标准差,疯狂……之类的简单事情无法很好地工作(我不能假设时间序列是固定的),我想要更“准确”的东西,最好是一个黑匣子,例如: double outlier_detection(double *向量,double值); 其中vector是包含历史数据的double数组,返回值是新样本“ value”的异常得分。

14
为什么没有可靠(和可靠)的统计数据代替经典技术?
当使用数据解决业务问题时,通常至少有一个关键的假设支撑经典统计数据是无效的。在大多数情况下,没有人会去检查那些假设,所以您永远不会真正知道。 例如,到目前为止,有如此多的常见Web指标是“长尾的”(相对于正态分布),有据可查,因此我们将其视为理所当然。另一个例子是在线社区,即使在拥有成千上万成员的社区中,也有据可查的是,到目前为止,在许多此类社区中,对贡献/参与的最大贡献是由微不足道的“超级贡献者”群体造成的。(例如,几个月前,SO API在Beta中可用后,StackOverflow成员发布了他通过API收集的数据的简要分析;他的结论- 不到百分之一的SO成员占了大部分SO上的活动 (大概是提问,然后回答),剩下的1-2%占了绝大多数,绝大多数成员无所事事。 这类分布(通常是规则而不是例外)通常最好用幂律密度函数建模。对于这些类型的分布,甚至中心极限定理也难以应用。 因此,鉴于分析师对此感兴趣的人口众多,并且鉴于经典模型在这些数据上的表现明显较差,并且鉴于健壮且可靠的方法已经存在了一段时间(我相信至少有20年),为什么他们不经常使用吗?(我也想知道为什么我不经常使用它们,但这对CrossValidated来说并不是真正的问题。) 是的,我知道有些教科书章节专门介绍了可靠的统计信息,并且我知道有(一些)R程序包(robustbase是我熟悉和使用的R程序包),等等。 然而,鉴于这些技术的明显优势,它们通常显然是工作的更好工具- 为什么它们使用得不多?我们难道不希望看到与经典类似物相比,更可靠(更可靠)的统计数据使用得更多(也许甚至是推定)吗? 我听到的唯一实质性(即技术性)解释是,健壮的技术(同样适用于抗性方法)缺乏经典技术的功能/敏感性。我不知道在某些情况下是否确实如此,但是我确实在很多情况下都不是正确的。 最后的优先权:是的,我知道这个问题没有一个可以证明的正确答案;本网站上的问题很少。而且,这个问题是真正的询问。这不是提出观点的借口-我在这里没有观点,只是我希望为其提供一些有见地答案的问题。

3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

9
线性回归分析应如何处理离群值?
通常,统计分析人员会得到一组数据集,并要求使用线性回归之类的技术来拟合模型。通常,数据集带有免责声明,类似于“哦,是的,我们搞砸了收集其中一些数据点-尽您所能”。 这种情况导致回归拟合受到可能存在错误数据的异常值的严重影响。给定以下内容: 从科学和道德的角度来看,无缘无故丢掉数据是危险的,除了“会使拟合看起来很糟糕”。 在现实生活中,收集数据的人员经常无法回答诸如“在生成此数据集时,您究竟弄错了哪些要点?”之类的问题。 哪些统计检验或经验法则可以用作排除线性回归分析中异常值的基础? 多线性回归是否有特殊考虑?

8
生成与现有变量具有定义的相关性的随机变量
对于模拟研究,我必须生成随机变量,这些变量显示与现有变量的预定义(填充)相关性。ÿYY 我研究了这些R软件包copula,CDVine它们可以生成具有给定依赖关系结构的随机多变量分布。但是,不可能将结果变量之一固定为现有变量。 任何想法和现有功能的链接表示赞赏! 结论: 提出了两个有效的答案,有不同的解决方案: 一个R 脚本由卡拉卡尔,其计算与一个随机变量精确(样品)的相关性,以一个预定义的变量 我发现了一个R 函数,该函数计算与预定义变量具有定义的总体相关性的随机变量 [@ttnphns的补充:我可以自由地将问题标题从单个固定变量的情况扩展到任意数量的固定变量;即如何生成具有预定义正确性和一些固定的现有变量的变量]

4
快速线性回归对异常值具有鲁棒性
我正在处理具有离群值的线性数据,其中一些离估计回归线的距离至少是5个标准差。我正在寻找一种线性回归技术,以减少这些点的影响。 到目前为止,我所做的是估计所有数据的回归线,然后丢弃残差非常大的平方(例如前10%)的数据点,并在没有这些点的情况下重复进行回归。 在文献中,有很多可能的方法:最小限度的平方,分位数回归,m估计量等。我真的不知道我应该尝试哪种方法,因此我正在寻找建议。对我来说重要的是,选择的方法应该快速,因为会在优化例程的每个步骤中计算出稳健的回归。非常感谢!

8
严格定义离群值?
人们经常谈论处理统计中的异常值。据我所知,困扰我的是,离群值的定义完全是主观的。例如,如果某个随机变量的真实分布非常重尾或是双峰的,则用于检测异常值的任何标准可视化或摘要统计信息都将错误地删除您要从中采样的分布部分。如果存在异常值,那么对异常值的严格定义是什么?如何在不将不合理的主观性引入分析的情况下处理异常值?

1
使用R中的tsoutliers包检测时间序列中的离群值(LS / AO / TC)。如何用公式格式表示离群值?
评论: 首先,我要非常感谢新的tsoutliers软件包的作者,该软件包实现了Chen和Liu的时间序列离群值检测,该软件包于1993年在《美国统计协会杂志》上的开源软件。[R[RR 程序包在时间序列数据中迭代检测5种不同类型的离群值: 附加异常值(AO) 创新离群值(IO) 电平转换(LS) 临时变更(TC) 季节性水平变动(SLS) 更妙的是,此程序包从预测程序包实现了auto.arima,因此可以无缝检测异常值。软件包还可以生成漂亮的图,以更好地了解时间序列数据。 以下是我的问题: 我尝试使用此程序包运行一些示例,但效果很好。加法离群值和电平移位很直观。但是,在处理临时更改离群值和创新离群值方面,我有两个问题,我无法理解。 临时更改异常值示例: 考虑以下示例: library(tsoutliers) library(expsmooth) library(fma) outlier.chicken <- tsoutliers::tso(chicken,types = c("AO","LS","TC"),maxit.iloop=10) outlier.chicken plot(outlier.chicken) 该程序正确地检测到以下位置的电平变化和临时变化。 Outliers: type ind time coefhat tstat 1 LS 12 1935 37.14 3.153 2 TC 20 1943 36.38 3.350 以下是情节和我的问题。 如何以等式格式写入临时更改?(电平移位可以很容易地写为二进制变量,在1935 / Obs 12之前的任何时候为0,在1935年之后和之后的任何时候为1。) 包装手册和本文中的临时更改公式为: L (B …

8
可以从数据中删除异常值吗?
我寻找一种从数据集中删除异常值的方法,然后发现了这个问题。 但是,在对这个问题的一些评论和答案中,人们提到从数据中删除异常值是一种不好的做法。 在我的数据集中,我有几个异常值很可能是由于测量误差引起的。即使其中一些不是,我也无法逐案检查,因为数据点太多。从统计上讲,不仅仅是删除异常值吗?或者,如果没有,那又是什么解决方案? 如果我仅将那些点留在那里,它们会以一种不反映现实的方式影响例如均值(因为它们大多数还是错误)。 编辑:我正在使用皮肤电导数据。大多数极限值是由于伪影,例如有人拉电线。 EDIT2:我对数据进行分析的主要兴趣是确定两组之间是否存在差异
33 outliers 

3
随机森林如何对异常值不敏感?
我已经读过一些资料,包括本资料,其中“ 随机森林”对离群值不敏感(例如Logistic回归和其他ML方法都是如此)。 但是,有两种直觉告诉我: 每当构建决策树时,都必须对所有点进行分类。这意味着,甚至离群值也将被分类,因此会影响在增强期间选择它们的决策树。 自举是RandomForest进行子采样的一部分。自举容易受到异常值的影响。 有什么办法可以使我对直觉对异常值敏感的直觉与不同意的消息来源相吻合?

1
时态网络中的链路异常检测
我碰到了一篇使用链接异常检测来预测趋势主题的论文,并且发现它非常有趣:该论文是“通过链接异常检测在社交流中发现新兴主题”。 我想将其复制到不同的数据集上,但是我对如何使用它们的方法并不熟悉。假设我有六个月的一系列节点网络快照。节点具有长尾度分布,大多数节点只有几个连接,而有些则有很多。新节点将在此时间段内出现。 我如何实现本文中使用的顺序折算归一化的最大似然计算来检测我认为可能是爆发的先兆的异常链接?还有其他更合适的方法吗? 我在理论上和实践上都在问。如果有人可以指出我用python或R实现该方法的方法,那将非常有帮助。 任何人?我知道你们那里的聪明人有一些开始思考的答案,

8
用均值替换离群值
我的朋友不懂互联网,问了这个问题。我没有统计背景,并且一直在互联网上搜索此问题。 问题是:是否可以用均值替换异常值?如果有可能,是否有任何书籍参考/期刊可以备份此声明?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.