Questions tagged «robust»

一般而言,稳健性是指统计数据对与其基本假设的偏离不敏感(Huber和Ronchetti,2009年)。

1
健壮的方法真的更好吗?
我有两组主题,A和B,每组的大小大约为400,预测变量大约为300。我的目标是为二进制响应变量建立预测模型。我的客户希望看到从A到B应用从A构建的模型的结果。(在他的书《回归建模策略》中,@ FrankHarrell提​​到最好将两个数据集结合起来并以此为基础构建模型,因为这样做会增加强大和精确---参见第90页,外部验证,考虑到收集我拥有的数据类型非常昂贵且耗时,我倾向于同意他的看法,但是我无法选择客户想要的东西。)我的许多预测变量都是高度相关的,而且也很偏斜。我正在使用逻辑回归来建立预测模型。 我的预测指标主要来自力学。例如,总时间的主题是一个应力比阈值高的下为时间段[ 吨1,吨2 ]中,出于各种值α &gt; 0和。显然,仅从它们的定义来看,这些总时间中有许多是代数相关的。许多与代数无关的预测变量由于其性质而相互关联:在时间段中处于高压力下的对象在时间段[ t 3,t 4趋于高压力下αα\alpha[ Ť1个,Ť2][Ť1个,Ť2][t_1, t_2]α &gt; 0α&gt;0\alpha > 0 [ 吨1,吨2 ]0 ≤ 吨1个&lt; 吨20≤Ť1个&lt;Ť20 \leq t_1 < t_2[ Ť1个,Ť2][Ť1个,Ť2][t_1, t_2],即使 [ 吨1,吨2 ] ∩ [ 吨3,吨4 ] = ∅。为了减少数据量,我将相关的预测变量聚在一起(例如,所有总应力时间都聚在一起),并使用主成分分析来表示每个聚类。由于变量存在偏差,因此我尝试了两种替代方法:[ Ť3,Ť4][Ť3,Ť4][t_3,t_4][ Ť1个,Ť2] ∩ [ t3,Ť4] = ∅[Ť1个,Ť2]∩[Ť3,Ť4]=∅[t_1,t_2] \cap [t_3,t_4] = \emptyset 在进行PCA之前,我使用了对数转换来减少变量的偏斜。 我使用了Mia …

4
可靠的均值t检验
我正在尝试针对随机变量(针对该变量的轻度到中度偏斜和峰度),针对局部替代测试零。遵循Wilcox在“稳健估计和假设检验简介”中的建议之后,我基于修整后的均值,中位数以及位置的M估计值(Wilcox的“一步”过程)对测试进行了研究。在使用非偏斜但具有正态分布的分布进行测试时,就功率而言,这些强大的测试确实优于标准t检验。E[X]=0E[X]=0E[X] = 0E[X]&gt;0E[X]&gt;0E[X] > 0XXX 但是,当使用偏斜的分布进行检验时,根据原假设,这些单面检验要么过于宽松,要么过于保守,这分别取决于该分布是左偏斜还是右偏斜。例如,对于1000个观察值,基于中位数的测试实际上将拒绝〜40%的时间,即名义5%的水平。原因很明显:对于偏斜的分布,中位数和均值是完全不同的。但是,在我的应用程序中,我确实需要测试均值,而不是中位数,而不是修整后的均值。 是否有t检验的更强大版本可以实际测试均值,但不能偏斜和峰度? 理想情况下,该程序在无偏斜,高峰度的情况下也能很好地工作。“单步”测试几乎足够好,“弯曲”参数设置得较高,但是在没有偏斜的情况下,它不如经过修剪的均值测试强大,并且在保持偏斜下的废品标称水平方面有些麻烦。 背景:我真正关心平均值而不是平均值的原因是,该测试将用于金融应用程序。例如,如果您想测试某个投资组合是否具有正的预期对数回报,则该平均值实际上是适当的,因为如果您投资该投资组合,您将体验到所有的回报(这是平均值乘以样本数),而不是中位数的重复项。也就是说,我真的很在乎RV的和。nnnnnnXXX

1
稳健的PCA与稳健的Mahalanobis距离,可用于异常值检测
健壮的PCA(由Candes等人2009或Netrepalli等人2014年开发)是一种流行的多变量离群值检测方法,但考虑到协方差矩阵的鲁棒,规则化估计,马氏距离也可以用于离群值检测。我很好奇使用一种方法相对于另一种方法的(缺点)优势。 我的直觉告诉我,两者之间的最大区别是:当数据集为“小”(从统计意义上来说)时,稳健的PCA将给出较低等级的协方差,而稳健的协方差矩阵估计将给出完整的-由于Ledoit-Wolf正则化导致的秩协方差。这又如何影响离群值检测?

3
在R中拟合t分布:缩放参数
我如何拟合t分布的参数,即与正态分布的“均值”和“标准偏差”相对应的参数。我假设它们被称为t分布的“均值”和“缩放/自由度”? 以下代码通常会导致“优化失败”错误。 library(MASS) fitdistr(x, "t") 我必须先缩放x还是转换成概率?如何做到最好?

1
迭代加权最小二乘的定义和收敛性
我一直在使用迭代加权最小二乘(IRLS)来最小化以下形式的函数, J(m)=∑Ni=1ρ(|xi−m|)J(m)=∑i=1Nρ(|xi−m|)J(m) = \sum_{i=1}^{N} \rho \left(\left| x_i - m \right|\right) 其中NNN是实例数xi∈Rxi∈Rx_i \in \mathbb{R},m∈Rm∈Rm \in \mathbb{R}是鲁棒估计,我想,并且ρρ\rho是一个合适的健壮罚函数。假设它是凸的(尽管不一定严格)并且目前是可区分的。这种一个很好的例子ρρ\rho是Huber损失函数。 我一直在做的是区分J(m)J(m)J(m)相对于mmm(和操作)来获得, dJdm=∑Ni=1ρ′(|xi−m|)|xi−m|(xi−m)dJdm=∑i=1Nρ′(|xi−m|)|xi−m|(xi−m)\frac{dJ}{dm}= \sum_{i=1}^{N} \frac{\rho'\left( \left|x_i-m\right|\right) }{\left|x_i-m\right|} \left( x_i-m \right) 并通过将其设置为0并将迭代权重固定kkk为w i(k )= ρ ' (| x i − m (k )|)来迭代求解wi(k)=ρ′(|xi−m(k)|)|xi−m(k)|wi(k)=ρ′(|xi−m(k)|)|xi−m(k)|w_i(k) = \frac{\rho'\left( \left|x_i-m{(k)}\right|\right) }{\left|x_i-m{(k)}\right|}(请注意,在处感知到的奇点xi=m(k)xi=m(k)x_i=m{(k)}实际上是我可能关心的所有的可移动奇点ρρ\rho)。然后我得到 ∑Ni=1wi(k)(xi−m(k+1))=0∑i=1Nwi(k)(xi−m(k+1))=0\sum_{i=1}^{N} w_i(k) \left( x_i-m{(k+1)} \right)=0 我求解得到m(k+1)=∑Ni=1wi(k)xi∑Ni=1wi(k)m(k+1)=∑i=1Nwi(k)xi∑i=1Nwi(k)m(k+1) = \frac{\sum_{i=1}^{N} w_i(k) x_i}{ …

2
估计正态分布的参数:中位数而不是均值?
估计正态分布参数的常用方法是使用均值和样本标准差/方差。 但是,如果存在一些离群值,则中位数和与中位数的中位数偏差应该更健​​壮,对吗? 在某些数据集我想,通过估计正态分布N(median(x),median|x−median(x)|)N(median(x),median|x−median(x)|)\mathcal{N}(\text{median}(x), \text{median}|x - \text{median}(x)|)似乎产生更好的配合比经典N(μ^,σ^)N(μ^,σ^)\mathcal{N}(\hat\mu, \hat\sigma)用平均值和RMS偏差。 如果您假设数据集中存在一些离群值,是否有任何理由不使用中位数?您知道这种方法的参考吗?在Google上进行快速搜索并没有发现有用的结果来讨论此处使用中位数的好处(但显然,“正态分布参数估计中位数”不是一组非常具体的搜索字词)。 中位数偏差,是否有偏差?我应该乘它n−1nn−1n\frac{n-1}{n}减少偏见? 您是否知道其他分布(例如Gamma分布或指数修改的高斯分布)(在参数估计中需要偏度,而离群值确实弄乱了该值)的相似鲁棒参数估计方法吗?

1
为什么Rm中的rlm()回归系数估计与lm()不同?
我在R MASS软件包中使用rlm回归多元线性模型。它适用于许多样本,但对于特定模型,我得到了准零系数: Call: rlm(formula = Y ~ X1 + X2 + X3 + X4, data = mymodel, maxit = 50, na.action = na.omit) Residuals: Min 1Q Median 3Q Max -7.981e+01 -6.022e-03 -1.696e-04 8.458e-03 7.706e+01 Coefficients: Value Std. Error t value (Intercept) 0.0002 0.0001 1.8418 X1 0.0004 0.0000 13.4478 X2 -0.0004 …

3
稳健的均值估计中的速成过程
我有一堆(大约1000个)估计值,它们都应该是长期弹性的估计值。多一点的这些一半是使用方法A和使用方法B.带我读的东西,如“我认为B法估计的东西剩下的估计很不是方法的不同,因为估计是多少(50-60%)高”。我对稳健统计的了解几乎是零,所以我只计算了两个样本的样本均值和中位数...,我立即看到了差异。方法A非常集中,中位数和均值之间的差异很小,但是方法B样本变化很大。 我得出的结论是,离群值和测量误差使方法B的样本倾斜,因此我丢弃了大约50个值(约15%),这与理论非常不一致...并且突然之间,两个样本的均值(包括其CI)非常相似。密度图也是如此。 (为消除异常值,我查看了样本A的范围,并删除了样本B之外的所有样本点。)我想告诉你,我在哪里可以找到一些可靠的均值估算基础请允许我更严格地判断这种情况。并有一些参考。我不需要对各种技术有很深入的了解,而是通过对鲁棒估计方法的全面调查来阅读。 我在去除异常值后进行了t均值显着性检验,p值为0.0559(t约为1.9),对于全部样本,t stat约为4.5。但这并不是真正的重点,手段可能有所不同,但是如上所述,它们不应相差50-60%。而且我认为他们没有。


3
可以使CART模型健壮吗?
我办公室的一位同事今天对我说:“树模型不好,因为它们被极端的观察所捕获”。 此处的搜索导致该线程基本上支持该声明。 这就引出了我的问题-在什么情况下CART模型可以保持稳健,如何显示?


4
消除异常值的好形式?
我正在为软件构建进行统计。对于每个通过/失败和经过时间的构建,我都有数据,我们每星期生成约200个数据。 成功率很容易累计,我可以说在任何给定的一周内有45%的人通过了考试。但是我也想汇总经过的时间,并且我想确保我不会太误解数据。想通了我最好问专业人士:-) 说我有10个持续时间。它们代表通过和失败情况。一些构建会立即失败,这会使持续时间异常短。一些在测试期间挂起并最终超时,导致持续时间很长。我们会开发不同的产品,因此即使成功构建也会在90秒到4个小时之间变化。 我可能会得到这样的一套: [50, 7812, 3014, 13400, 21011, 155, 60, 8993, 8378, 9100] 我的第一种方法是通过对集合进行排序并选择中间值来获得中值时间,在这种情况下为7812(我不理会偶数集的算术平均值)。 不幸的是,这似乎产生了很多差异,因为我只挑选了一个给定的值。因此,如果我趋向于此值,则取决于哪个构建在中间,它会在5000-10000秒之间反弹。 为了解决这个问题,我尝试了另一种方法-移除异常值,然后对剩余值进行均值计算。我决定将其拆分为三分位数,并且仅在中间的一个上工作: [50, 60, 155, 3014, 7812, 8378, 8993, 9100, 13400, 21011] -&gt; [50, 60, 155], [3014, 7812, 8378, 8993], [9100, 13400, 21011] -&gt; [3014, 7812, 8378, 8993] 在我看来,这看起来更好的原因有两个: 我们不希望对更快的构建采取任何措施,它们已经可以了 最长的构建可能是超时引起的,并且将始终存在。我们还有其他机制可以检测到这些 因此在我看来,这就是我要寻找的数据,但我担心通过消除真实性来实现平滑性。 这有争议吗?方法理智吗? 谢谢!

1
为什么不每次都进行强大的回归?
此页面的示例表明,简单回归明显受到异常值的影响,可以通过鲁棒回归技术来克服:http : //www.alastairsanderson.com/R/tutorials/robust-regression-in-R/ 。我相信lmrob和ltsReg是其他强大的回归技术。 为什么不应该每次都不进行鲁棒回归(例如rlm或rq),而不是执行简单回归(lm)?这些强大的回归技术有什么缺点吗?感谢您的见解。

1
对峰度的可靠估计?
我使用的是峰度的常用估计量,,但是我注意到经验分布中即使是很小的“离群值” ,即远离中心的小峰,对其产生巨大影响。是否有一个更稳健的峰度估计器?ķ^= μ^4σ^4ķ^=μ^4σ^4\hat{K}=\frac{\hat{\mu}_4}{\hat{\sigma}^4}


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.