Questions tagged «robust»

一般而言,稳健性是指统计数据对与其基本假设的偏离不敏感(Huber和Ronchetti,2009年)。

14
为什么没有可靠(和可靠)的统计数据代替经典技术?
当使用数据解决业务问题时,通常至少有一个关键的假设支撑经典统计数据是无效的。在大多数情况下,没有人会去检查那些假设,所以您永远不会真正知道。 例如,到目前为止,有如此多的常见Web指标是“长尾的”(相对于正态分布),有据可查,因此我们将其视为理所当然。另一个例子是在线社区,即使在拥有成千上万成员的社区中,也有据可查的是,到目前为止,在许多此类社区中,对贡献/参与的最大贡献是由微不足道的“超级贡献者”群体造成的。(例如,几个月前,SO API在Beta中可用后,StackOverflow成员发布了他通过API收集的数据的简要分析;他的结论- 不到百分之一的SO成员占了大部分SO上的活动 (大概是提问,然后回答),剩下的1-2%占了绝大多数,绝大多数成员无所事事。 这类分布(通常是规则而不是例外)通常最好用幂律密度函数建模。对于这些类型的分布,甚至中心极限定理也难以应用。 因此,鉴于分析师对此感兴趣的人口众多,并且鉴于经典模型在这些数据上的表现明显较差,并且鉴于健壮且可靠的方法已经存在了一段时间(我相信至少有20年),为什么他们不经常使用吗?(我也想知道为什么我不经常使用它们,但这对CrossValidated来说并不是真正的问题。) 是的,我知道有些教科书章节专门介绍了可靠的统计信息,并且我知道有(一些)R程序包(robustbase是我熟悉和使用的R程序包),等等。 然而,鉴于这些技术的明显优势,它们通常显然是工作的更好工具- 为什么它们使用得不多?我们难道不希望看到与经典类似物相比,更可靠(更可靠)的统计数据使用得更多(也许甚至是推定)吗? 我听到的唯一实质性(即技术性)解释是,健壮的技术(同样适用于抗性方法)缺乏经典技术的功能/敏感性。我不知道在某些情况下是否确实如此,但是我确实在很多情况下都不是正确的。 最后的优先权:是的,我知道这个问题没有一个可以证明的正确答案;本网站上的问题很少。而且,这个问题是真正的询问。这不是提出观点的借口-我在这里没有观点,只是我希望为其提供一些有见地答案的问题。

3
为什么我们在不必线性回归时非常关心正态分布误差项(和同方差)?
我想每次听到有人说残差和/或异方差的非正态性违反OLS假设时,我都会感到沮丧。要估计 OLS模型中的参数,高斯-马尔可夫定理都不需要这些假设。我认为在OLS模型的假设检验中这有多重要,因为假设这些事情为我们提供了t检验,F检验和更通用的Wald统计量的简洁公式。 但是,没有它们就可以进行假设检验。如果仅去除同方差,我们可以轻松计算出健壮的标准误差和聚类标准误差。如果我们完全放弃正态性,我们可以使用自举,并为误差项,似然比和拉格朗日乘数检验指定另一个参数规范。 我们以这种方式进行授课只是一种耻辱,因为我看到很多人都在为自己不必首先遇到的假设而苦苦挣扎。 当我们有能力轻松应用更强大的技术时,为什么我们如此强调这些假设?我缺少重要的东西吗?

4
快速线性回归对异常值具有鲁棒性
我正在处理具有离群值的线性数据,其中一些离估计回归线的距离至少是5个标准差。我正在寻找一种线性回归技术,以减少这些点的影响。 到目前为止,我所做的是估计所有数据的回归线,然后丢弃残差非常大的平方(例如前10%)的数据点,并在没有这些点的情况下重复进行回归。 在文献中,有很多可能的方法:最小限度的平方,分位数回归,m估计量等。我真的不知道我应该尝试哪种方法,因此我正在寻找建议。对我来说重要的是,选择的方法应该快速,因为会在优化例程的每个步骤中计算出稳健的回归。非常感谢!

4
在R中复制Stata的“健壮”选项
我一直在尝试robust在R中复制Stata选项的结果。我使用了rlm来自MASS包的命令lmrob以及来自“ robustbase”包的命令。在这两种情况下,结果都与Stata中的“ robust”选项完全不同。在这种情况下,有人可以提出建议吗? 这是我在Stata中运行稳健选项时获得的结果: . reg yb7 buildsqb7 no_bed no_bath rain_harv swim_pl pr_terrace, robust Linear regression Number of obs = 4451 F( 6, 4444) = 101.12 Prob > F = 0.0000 R-squared = 0.3682 Root MSE = .5721 ------------------------------------------------------------------------------ | Robust yb7 | Coef. Std. Err. t P>|t| [95% Conf. …

6
用于估计大致正态分布规模的鲁棒贝叶斯模型将是什么?
存在许多健壮的规模估计器。一个明显的例子是与标准偏差相关的中位数绝对偏差,即。在贝叶斯框架中,存在多种方法来可靠地估计大致正态分布的位置(例如,被异常值污染的正态),例如,可以假设数据的分布与分布或拉普拉斯分布相同。现在我的问题是:σ=MAD⋅1.4826σ=MAD⋅1.4826\sigma = \mathrm{MAD}\cdot1.4826 以鲁棒方式测量大致正态分布规模的贝叶斯模型在与MAD或类似鲁棒估计量相同的意义上是鲁棒的吗? 与MAD的情况一样,如果数据的分布实际上是正态分布的,那么贝叶斯模型可以逼近正态分布的SD,那将是很巧妙的。 编辑1: 一个模型的一个典型的例子假设数据时即防止污染/离群健壮是大致正常的使用是在状分布:yiyiy_i yi∼t(m,s,ν)yi∼t(m,s,ν)y_i \sim \mathrm{t}(m, s,\nu) 其中是平均值,是小数,是自由度。如果在和上具有适当的先验,则将是均值的估计值,它将对异常值具有鲁棒性。但是,由于s取决于\ nu,因此并不是y_i SD的一致估计。例如,如果\ nu将固定为4.0,并且上面的模型将适合\ mathrm {Norm}(\ mu = 0,\ sigma = 1)分布中的大量样本,则s小号ν 米,小号ν 米ÿ 我小号ÿ 我小号ν ν Ñ ø ř 米(μ = 0 ,σ = 1 )小号mmmsssνν\num,sm,sm, sνν\nummmyiyiy_isssyiyiy_isssνν\nuνν\nuNorm(μ=0,σ=1)Norm(μ=0,σ=1)\mathrm{Norm}(\mu=0,\sigma=1)sss大约是0.82 我要寻找的是一个健壮的模型,就像t模型一样,但是要使用SD代替平均值(或除平均值外)。 编辑2: 以下是R和JAGS中的一个编码示例,上面提到的t模型相对于均值如何更健壮。 # generating some contaminated data y <- c( …

8
用均值替换离群值
我的朋友不懂互联网,问了这个问题。我没有统计背景,并且一直在互联网上搜索此问题。 问题是:是否可以用均值替换异常值?如果有可能,是否有任何书籍参考/期刊可以备份此声明?

2
50%的置信区间是否比95%的置信区间更可靠地估计?
我的问题来自于安德鲁·盖尔曼(Andrew Gelman)的博客文章中的这一评论,他在文章中主张使用50%的置信区间代替95%的置信区间,尽管并不是以更可靠的估计为依据: 我更喜欢50%到95%的间隔,原因有3个: 计算稳定性 更直观的评估(50%的间隔应包含真实值的一半), 从某种意义上说,最好是了解参数和预测值的位置,而不要尝试不切实际的接近确定性。 评论者的想法似乎是,如果置信区间为95%,则置信区间的基础假设的问题将比置信区间为50%的影响更大。但是,他并没有真正解释原因。 [...]随着间隔的增加,总体上,您对模型的细节或假设变得更加敏感。例如,您永远不会相信自己已经正确识别了99.9995%的间隔。至少那是我的直觉。如果是正确的话,它认为应该比95%更好地估计50%。还是“更可靠”地估算,因为它对有关噪声的假设不太敏感? 是真的吗 为什么/为什么不呢?

2
为什么我们应该使用t错误而不是普通错误?
在Andrew Gelman撰写的此博客文章中,包含以下内容: 50年前的贝叶斯模型看起来简直是无望的(当然,对于简单的问题除外),我希望今天的贝叶斯模型在50年后看起来简直是绝望的。(仅举一个简单的例子:我们可能应该在任何地方都常规地使用t而不是正常错误,但是出于熟悉,习惯和数学上的方便,我们还没有这样做。这可能是很好的理由-在科学上在政治上,保守主义有很多有利的理由,但我认为,最终,当我们适应更复杂的模型时,我们会朝着这个方向发展。) 为什么我们应该“常规地在几乎所有地方都使用t而不是普通错误”?

2
运行glm时出现错误“系统在计算上是奇异的”
我正在使用robustbase程序包来运行glm估计。但是,当我这样做时,出现以下错误: Error in solve.default(crossprod(X, DiagB * X)/nobs, EEq) : system is computationally singular: reciprocal condition number = 1.66807e-16 这是什么意思/表示?我该如何调试呢? PS。如果您需要任何答案(公式/规格或数据),我将很乐意提供。

4
为什么RANSAC没有最广泛地用于统计?
来自计算机视觉领域,我经常使用RANSAC(随机样本共识)方法将模型拟合到具有许多异常值的数据。 但是,我从未见过统计学家使用过这种方法,而且一直给人一种不被认为是“统计上合理”的方法的印象。为什么?它本质上是随机的,这使得分析起来更加困难,但是引导方法也是如此。 还是仅仅是一个学术孤岛不互相交谈的情况?

5
当样本的分布为非正态分布时,独立样本的t检验有多强?
我已经读过,当样本的分布偏离正态分布时,t检验是“合理可靠的”。当然,重要的是差异的抽样分布。我有两组数据。这些组之一在因变量上有很大的偏差。两组的样本量都非常小(一组中n = 33,另一组中n = 45)。我是否应该假设在这些条件下,我的t检验对于违反正态性假设会很可靠?

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
鲁棒线性模型中的加权
我R使用rlm()MASS软件包中的MM权重估计了一个鲁棒的线性模型。“ ”没有为模型提供值,但是如果它是有意义的数量,我希望有一个。我也很想知道是否有一个值以稳健回归中的观测值加权的方式加权总和剩余方差是否有意义。我的一般想法是,如果出于回归的目的,我们实际上是在权重上给予某些估计值较少的影响,因为它们在某种程度上是离群值,那么也许出于计算的目的,我们也应该给出那些相同的估计影响较小?[R2[R2R^2[R2[R2R^2[R2[R2r^2 我为和加权编写了两个简单的函数,它们在下面。我还包括了为模型HI9运行这些功能的结果。编辑:我找到了UNSW的Adelle Coster的网页,该网页提供了一个公式,其中包括权重向量,这与我计算时一样,并要求她提供更正式的参考:http://web.maths。 unsw.edu.au/~adelle/Garvan/Assays/GoodnessOfFit.html(仍在向Cross Valided寻求有关如何解释此加权。[R2[R2R^2[R2[R2R^2R2SSeSSt[R2[R2r^2 #I used this function to calculate a basic r-squared from the robust linear model r2 <- function(x){ + SSe <- sum((x$resid)^2); + observed <- x$resid+x$fitted; + SSt <- sum((observed-mean(observed))^2); + value <- 1-SSe/SSt; + return(value); + } r2(HI9) [1] 0.2061147 #I used this function …

5
实际使用哪些健壮的相关方法?
我计划进行一次仿真研究,在其中比较几种具有不同分布(偏斜,离群值等)的鲁棒相关技术的性能。对于稳健,我的意思是对a)偏斜分布,b)离群值和c)重尾稳健的理想情况。 除了将Pearson相关性作为基准外,我还想包括以下更可靠的措施: 斯皮尔曼的ρρ\rho 折弯百分比(Wilcox,1994,[1]) 最小体积椭圆形,最小协方差行列式(cov.mve/ cov.mcd与cor=TRUE选项) 温莎相关 当然,还有更多选择(特别是如果您还包括强大的回归技术),但是我想将自己局限于使用最多/很有希望的方法。 现在,我有三个问题(可以只回答一个问题): 我可以/应该包括其他健壮的相关方法吗? 您的领域实际上 使用了 哪些强大的相关技术?(谈到心理研究:除了Spearman的,我从未在技术论文之外见过任何健壮的关联技术。自举技术越来越受欢迎,但到目前为止,其他健壮的统计数据或多或少不存在)。ρρ\rho 您是否已经知道多种相关技术的系统比较? 也可以随意评论上面给出的方法列表。 [1] Wilcox,RR(1994)。百分比弯曲相关系数。心理疗法,59,601-616。

4
均值和中值属性
有人可以向我解释清楚将两个陈述(a)和(b)链接在一起的数学逻辑吗?让我们有一组值(一些分布)。现在, a)中位数不取决于每个值[它仅取决于一个或两个中间值];b)中位数是从中得出的最小绝对偏差之和的轨迹。 与此相反, a)(算术)均值取决于每个值;b)均值是与之最小平方和偏差的轨迹。 到目前为止,我对它的理解是直观的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.