Questions tagged «outliers»

离群值是相对于数据集的简单表征而言似乎不寻常或描述得不好的观察结果。一种令人不适的可能性是,这些数据来自与打算研究的人群不同的人群。

1
如何在预测中考虑假期的影响
我有一个相当可预测的每日时间序列和每周季节性。在没有假期的情况下,我能够提出看起来很准确的预测(通过交叉验证确认)。但是,当有假期时,我会遇到以下问题: 尽管所有历史假期均为0,但我在预测中得到的假期非零数字。但这实际上不是主要问题。问题是... 由于假期中不进行的处理会“溢出”到假期后的几天,因此,由于这些异常值似乎是短期的创新,因此无法使用简单的虚拟变量进行削减。如果没有每周的季节性变化,我可能会得出一个估计值,用于在假期后的五天左右的时间内分配假期中未处理的数据(如您如何创建反映假期的超前和滞后影响的变量中建议的/时序分析中的日历效果?)。但是,“溢出”的分布取决于假期发生的星期几,以及假期是否是圣诞节或感恩节,那里的订单订购率低于一年中的其余时间。 以下是我的交叉验证的一些快照,这些快照显示了在一周的不同日期出现的假期的预测(蓝色)与实际(红色)结果: 我还担心圣诞节的影响取决于它落在一周中的哪一天,而我只有六年左右的历史数据。 对于在预测的背景下如何应对这些类型的创新异常值,是否有人有任何建议?(很遗憾,我无法共享任何数据)

3
为什么增强方法对异常值敏感
我发现有许多文章指出增强方法对异常值很敏感,但没有文章解释原因。 以我的经验,离群值对于任何机器学习算法都是不利的,但是为什么提升方法特别敏感? 下列算法如何在对异常值的敏感性方面进行排名:增强树,随机森林,神经网络,SVM和简单回归方法(例如逻辑回归)?

4
消除异常值的好形式?
我正在为软件构建进行统计。对于每个通过/失败和经过时间的构建,我都有数据,我们每星期生成约200个数据。 成功率很容易累计,我可以说在任何给定的一周内有45%的人通过了考试。但是我也想汇总经过的时间,并且我想确保我不会太误解数据。想通了我最好问专业人士:-) 说我有10个持续时间。它们代表通过和失败情况。一些构建会立即失败,这会使持续时间异常短。一些在测试期间挂起并最终超时,导致持续时间很长。我们会开发不同的产品,因此即使成功构建也会在90秒到4个小时之间变化。 我可能会得到这样的一套: [50, 7812, 3014, 13400, 21011, 155, 60, 8993, 8378, 9100] 我的第一种方法是通过对集合进行排序并选择中间值来获得中值时间,在这种情况下为7812(我不理会偶数集的算术平均值)。 不幸的是,这似乎产生了很多差异,因为我只挑选了一个给定的值。因此,如果我趋向于此值,则取决于哪个构建在中间,它会在5000-10000秒之间反弹。 为了解决这个问题,我尝试了另一种方法-移除异常值,然后对剩余值进行均值计算。我决定将其拆分为三分位数,并且仅在中间的一个上工作: [50, 60, 155, 3014, 7812, 8378, 8993, 9100, 13400, 21011] -> [50, 60, 155], [3014, 7812, 8378, 8993], [9100, 13400, 21011] -> [3014, 7812, 8378, 8993] 在我看来,这看起来更好的原因有两个: 我们不希望对更快的构建采取任何措施,它们已经可以了 最长的构建可能是超时引起的,并且将始终存在。我们还有其他机制可以检测到这些 因此在我看来,这就是我要寻找的数据,但我担心通过消除真实性来实现平滑性。 这有争议吗?方法理智吗? 谢谢!

3
时间序列上的STL具有缺失值以进行异常检测
我正在尝试在气候数据的时间序列中检测到一些异常值,但缺少一些观测值。在网上搜索,我发现了许多可用的方法。从消除趋势和季节性成分并研究其余部分的意义上讲,其中的stl分解似乎很有吸引力。阅读STL:一种基于黄土的季节性趋势分解程序,stl在确定分配可变性的设置方面似乎很灵活,不受异常值的影响,即使缺少值也可以应用。但是,尝试使用R,经过四年的观察并根据http://stat.ethz.ch/R-manual/R-patched/library/stats/html/stl.html定义所有参数,我遇到了错误: "time series contains internal NAs"(当时na.action=na.omit)和 "series is not periodic or has less than two periods"(当时na.action=na.exclude)。 我仔细检查了频率是否正确定义。我在博客中看到了相关问题,但是没有找到任何可以解决此问题的建议。不可能stl在缺少值的系列中应用?我非常不愿意对它们进行插值,因为我不想引入(并因此检测...)工件。出于同样的原因,我不知道改为使用ARIMA方法是多么明智(如果缺少值仍然是个问题)。 如果您知道一种适用stl于缺失值的系列的方法,或者您认为我的选择在方法上不合理,或者您有更好的建议,请分享。我是该领域的新手,但堆满了(似乎...)相关信息。

1
PROC Mixed和LME / LMER在R自由度上的区别
注意:这个问题是一个转贴,因为我的上一个问题出于法律原因不得不删除。 在比较SAS的PROC MIXED与R中lme的nlme软件包的功能时,我偶然发现了一些相当混乱的差异。更具体地说,不同测试的自由度在PROC MIXED和之间有所不同lme,我想知道为什么。 从以下数据集(以下给出的R代码)开始: ind:指示进行测量的个人的因子 fac:进行测量的器官 trt:表示治疗的因素 y:一些连续响应变量 这个想法是建立以下简单模型: y ~ trt + (ind):ind作为随机因子 y ~ trt + (fac(ind)):fac嵌套在ind作为随机因子 需要注意的是最后一个模型应引起奇异性,因为只有1的值y对每一个组合ind和fac。 第一模型 在SAS中,我建立以下模型: PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; 根据教程,R中使用的相同模型nlme应为: > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 两种模型对系数及其SE均给出相同的估计,但是在对F的影响进行F检验时trt,它们使用的自由度不同: SAS : Type …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

3
极少量检测异常值
给定十二个样本亮度值,我需要获得尽可能精确的主要稳定光源的亮度值。传感器不完美,光线有时会“闪烁”变亮或变暗,可以忽略不计,因此我需要进行异常检测(我认为?)。 我已经在这里阅读了各种方法的一些知识,但无法决定采用哪种方法。离群数事先未知,通常为零。闪烁通常与稳定的亮度有很大的偏差(足以与当前存在的平均值相混淆),但不一定如此。 以下是12个测量值的示例集合,以确保问题的完整性: 295.5214、277.7749、274.6538、272.5897、271.0733、292.5856、282.0986、275.0419、273.084、273.1783、274.0317、290.1837 我的直觉是,尽管292和295看起来有点高,但在特定的集合中可能没有异常值。 因此,我的问题是,这里最好的方法是什么?我应该提到的是,这些值是从零(黑色)点取光的RG和B分量的欧几里得距离得出的。如果需要,返回到这些值在程序上会很痛苦,但有可能。欧几里德距离被用作“整体强度”的量度,因为我对颜色不感兴趣,而对输出强度不感兴趣。但是,我提到的闪烁有一个合理的机会与通常的输出具有不同的RGB组成。 目前,我正在玩某种功能,该功能会重复执行,直到通过以下方式达到允许的措施的稳定成员身份为止: 求标准偏差 将外面的所有内容说2个SD放入忽略列表 重新计算平均值和标准差(不包括忽略列表) 根据新的平均值和SD重新确定要忽略的人(评估所有12个) 重复直到稳定。 这种方法有什么价值? 感谢所有评论!

4
时间序列中的异常值检测:如何减少误报?
我想自动离群值在时间序列检测和我使用的罗布海德门提出的解决方案的修改在这里。 假设我衡量来自各个国家/地区的网站的每日访问量。对于某些日访问量只有几百或几千的国家,我的方法似乎工作合理。 但是,在一个国家每天只进行1或2次访问的情况下,该算法的范围非常狭窄(例如1±0.001),因此这2次访问被认为是异常值。我如何自动检测此类情况,以及如何处理它们以识别异常值?我不想设置一个手动的阈值,例如每天100次访问。 谢谢!

1
对峰度的可靠估计?
我使用的是峰度的常用估计量,,但是我注意到经验分布中即使是很小的“离群值” ,即远离中心的小峰,对其产生巨大影响。是否有一个更稳健的峰度估计器?ķ^= μ^4σ^4ķ^=μ^4σ^4\hat{K}=\frac{\hat{\mu}_4}{\hat{\sigma}^4}

2
广义线性混合模型:诊断
我有一个随机截距逻辑回归(由于重复测量),我想做一些诊断,特别是关于异常值和有影响力的观察结果的诊断。 我查看了残差以查看是否有突出的观察结果。但我也想看看类似库克的距离或DFFITS。Hosmer和Lemeshow(2000)说,由于缺乏用于关联数据的模型诊断工具,因此应该只适合常规logistic回归模型而忽略相关性,而应使用可用于常规logistic回归的诊断工具。他们认为这比完全不进行诊断要好。 这本书是2000年出版的,我想知道现在是否有可用的方法用于模型诊断和混合效应逻辑回归?什么是检查异常值的好方法? 编辑(2013年11月5日): 由于缺乏响应,我想知道使用混合模型进行的诊断是否一般而言没有进行,或者在对数据建模时不是很重要的一步。因此,让我重新表述我的问题:一旦找到“良好”的回归模型,您会怎么做?

2
IQR检测异常值的准确性如何
我正在编写一个分析进程运行时间的脚本。我不确定它们的分布情况,但是我想知道某个进程是否运行“过长”。到目前为止,我一直在使用上次运行时间的3个标准差(n> 30),但有人告诉我,如果数据不正常(看起来好像不是),这将无法提供任何有用的信息。我发现另一个异常测试指出: 找到四分位数间距,即IQR = Q3-Q1,其中Q3是第三个四分位数,而Q1是第一个四分位数。然后找到这两个数字: a)Q1-1.5 * IQR b)Q3 + 1.5 * IQR 如果<a或> b,则该点是异常值 我的数据通常是2sec,3sec,2sec,5sec,300sec,4sec等。其中300sec显然是一个异常值。 哪种方法更好?IQR方法还是std偏差方法?

1
自动选择特征以进行异常检测
自动选择特征以进行异常检测的最佳方法是什么? 我通常将异常检测视为一种算法,由专家选择特征:重要的是输出范围(如“异常输入-异常输出”),因此即使具有许多功能,您也可以通过组合来得出更小的子集特点。 但是,假定在一般情况下功能列表可能很大,则有时自动学习有时会更可取。据我所知,有一些尝试: 概括支持向量数据描述的“异常检测的自动特征选择”(pdf) 我想使用粗糙集理论的“使用粗糙集理论的基于主机的快速入侵检测系统”(没有可用的pdf?) 使用统计方法的“异常检测敌对网络流量的学习规则”(pdf,视频) 因此,现在我想知道是否有人可以告诉您-假设检测到异常并具有非常大的功能(数百个): 这些庞大的功能集是否有意义?我们不应该将功能集减少到几十个吗? 如果庞大的功能集确实有意义,那么上述哪种方法会给出更好的预测,为什么?有没有列出更好的东西? 与降维或通过聚类/排序/等进行特征构建相比,为什么它们应该提供更好的结果?

3
寻找平均GPS点
我需要编写一个程序以从大量点中找到平均GPS点。 实际上,发生以下情况: 每个月,一个人记录一个相同静态资产的GPS点。 由于GPS的性质,这些点每个月都会略有不同。 有时,一个人犯了一个错误,并在完全不同的位置记录了错误的资产。 每个GPS点都有确定性权重(HDOP),该权重表示当前GPS数据的准确性。HDOP值较高的GPS点优先于HDOP较低的GPS点。 我如何确定以下内容: 处理具有2个值与单个值(如age)的数据。(找到人口的平均年龄) 确定离群值。在下面的示例中,这些值为[-28.252,25.018]和[-28.632,25.219] 排除异常值后,在其中找到平均GPS点可能是[-28.389,25.245]。 如果可以使用HDOP值为每个点提供的“权重”,那将是一个额外的奖励。
11 outliers  spatial 

2
使用回归检测异常值
可以将回归用于异常检测。我了解可以通过消除异常值来改进回归模型的方法。但是这里的主要目的不是拟合回归模型,而是使用回归找出谎言

6
识别离群值以进行非线性回归
我正在研究螨的功能响应领域。我想做一个回归来估计Rogers II型函数的参数(攻击率和处理时间)。我有一个测量数据集。 我怎样才能最好地确定异常值? 对于我的回归,我在R中使用以下脚本(非线性回归):(日期集是一个简单的2列文本文件,称为data.txt文件,具有N0值(初始猎物数量)和FR值(24小时内被猎物食用的数量): library("nlstools") dat <- read.delim("C:/data.txt") #Rogers type II model a <- c(0,50) b <- c(0,40) plot(FR~N0,main="Rogers II normaal",xlim=a,ylim=b,xlab="N0",ylab="FR") rogers.predII <- function(N0,a,h,T) {N0 - lambertW(a*h*N0*exp(-a*(T-h*N0)))/(a*h)} params1 <- list(attackR3_N=0.04,Th3_N=1.46) RogersII_N <- nls(FR~rogers.predII(N0,attackR3_N,Th3_N,T=24),start=params1,data=dat,control=list(maxiter= 10000)) hatRIIN <- predict(RogersII_N) lines(spline(N0,hatRIIN)) summary(RogersII_N)$parameters 为了绘制残差图,我使用以下脚本: res <- nlsResiduals (RogersII_N) plot (res, type = 0) hist …

3
涵盖数据预处理和异常检测技术的好书
就像标题一样,有谁知道一本很好的,最新的书,该书涵盖了一般的数据预处理,尤其是异常检测技术? 这本书并不需要专心于此,但是它应该详尽地处理上述主题-我对以起点为起点的论文感到满意,并引用了一系列论文,对各种技术的解释必须出现在本书中。这本书本身。 处理丢失数据的技术更可取,但不是必需的...

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.