Questions tagged «robust»

一般而言,稳健性是指统计数据对与其基本假设的偏离不敏感(Huber和Ronchetti,2009年)。

1
研究逻辑回归的稳健性,以防止违反逻辑线性
我正在执行具有二进制结果(启动和不启动)的逻辑回归。我混合的预测变量都是连续变量或二分变量。 使用Box-Tidwell方法,我的连续预测变量之一可能违反了logit线性的假设。拟合优度统计没有迹象表明拟合是有问题的。 随后,我再次运行回归模型,将原始连续变量替换为:首先是平方根变换,其次是变量的二分形式。 在检查输出时,拟合优度似乎略有提高,但残差成为问题。参数估计值,标准误差和仍然相对相似。在我的假设中,在这三个模型中,数据的解释都没有改变。exp(β)exp⁡(β)\exp(\beta) 因此,就我的结果的实用性和数据解释的意义而言,似乎应该使用原始的连续变量来报告回归模型。 我想知道这一点: Logistic回归何时能抵抗logit假设线性度的潜在违反? 鉴于我上面的示例,在模型中包括原始连续变量似乎可以接受吗? 有什么参考或指南可以推荐何时可以令人满意地接受模型对潜在的logit线性违反的鲁棒性?

3
何时在Poisson回归中使用可靠的标准误差?
我将Poisson回归模型用于计数数据,并且想知道是否有理由不对参数估计使用健壮的标准误差?我特别担心,因为我的一些估计值没有显着性(例如,p = 0.13)不显着(例如,p = 0.13),但是具有显着性(p <0.01)。 在SAS中,可以通过使用proc genmod(例如repeated subject=patid;)中的重复语句来实现。我一直以http://www.ats.ucla.edu/stat/sas/dae/poissonreg.htm为例,引用了Cameron和Trivedi(2009)的一篇论文,以支持使用可靠的标准错误。

1
具有学生t错误的回归没有用吗?
请参阅编辑。 当您的数据尾巴很重时,进行带有Student-t错误的回归似乎是一件直观的事情。在探索这种可能性时,我遇到了这篇论文: TS的Breusch,JC的Robertson和AH的威尔士(1997年11月1日)。皇帝的新装:对多元t回归模型的评论。Statistica Neerlandica,51,3.)(link,pdf) 该论据认为,在某种意义上,比例参数和自由度参数是无法相互识别的,因此,进行带有t误差的回归不会做超出标准线性回归的任何事情。 Zellner(1976)提出了一种回归模型,其中数据向量(或误差向量)表示为来自多元Student t分布的实现。该模型引起了相当大的关注,因为它似乎扩大了通常的高斯假设,以允许更严重的误差分布。文献中的许多结果表明,在较宽的分布假设下,高斯模型的标准推理程序仍然适用,从而导致了标准方法的鲁棒性。我们证明,尽管从数学上讲这两个模型是不同的,但出于统计推断的目的,它们是无法区分的。多元t模型的经验含义与高斯模型的经验含义完全相同。因此,建议采用更广泛的数据分布表示形式是虚假的,而健壮性的主张则具有误导性。这些结论是从频繁主义者和贝叶斯主义者的角度得出的。 这让我感到惊讶。 我没有数学上的技巧来很好地评估他们的论点,所以我有两个问题:确实,用t误差进行回归通常没有用吗?如果它们有时有用,是我误解了本文还是引起误解?如果它们没有用,这是众所周知的事实吗?还有其他方法可以处理大量拖尾的数据吗? 编辑:仔细阅读第3段和第4节,似乎下面的文章并没有在谈论我作为学生t回归的想法(错误是独立的单变量t分布)。错误是从单一分布中得出的,并且不是独立的。如果我理解正确,那么这种缺乏独立性正是解释为什么您无法独立估计自由度和自由度的原因。 我猜这篇文章提供了一份避免阅读的论文清单。

1
高斯效率是什么意思?
如果有可靠的估计量,高斯效率意味着什么?例如,高斯效率为82%,击穿点为50%。问ñ问ñQ_{_n} 参考文献是:Rousseeuw PJ和Croux,C.(1993)。“中位数绝对偏差的替代方法。” J. American Statistics Assoc。,88,1273-1283

1
不当的线性模型什么时候才能变得强大美观?
问题: 是在实践中使用了不正确的线性模型,还是在科学期刊中不时描述了某种好奇心?如果是这样,它们在哪些领域使用? 还有其他此类模型的例子吗? 最后,对于此类模型,从OLS提取的标准误差,,R ^ 2等是否正确,还是应该以某种方式进行纠正?pppR2R2R^2 背景:文献中不时描述了不正确的线性模型。通常,此类模型可以描述为 y=a+b∑iwixi+εy=a+b∑iwixi+ε y = a + b \sum_i w_i x_i + \varepsilon 是什么让他们回归不同的是,的是没有在模型中估计系数,但权重是wjwjw_j 等于每个变量(单位加权回归),wi=1wi=1w_i = 1 基于相关性(Dana and Dawes,2004),wi=ρ(y,xi)wi=ρ(y,xi)w_i = \rho(y, x_i) 随机选择(Dawes,1979年), −1−1-1变量负相关,为正相关的变量(Wainer,1976)。1 yyyy111yyy 使用某种特征缩放也很常见,例如将变量转换为分数。因此,这种模型可以简化为单变量线性回归ZZZ y=a+bv+εy=a+bv+ε y = a + b v + \varepsilon 其中,并且可以使用OLS回归简单地估算。v=∑wixv=∑wixv = \sum w_i x 参考: Dawes,Robyn M.(1979)。决策中不适当线性模型的鲁棒性。美国心理学家,第34卷,第 571-582页。 …

1
“稳健统计:基于影响函数的方法”练习2.2a.16的解决方案
在“ 稳健统计:基于影响函数的方法”的第180页上,找到以下问题: 16:表明对于位置不变的估计量,总是 。在为奇数或为偶数的情况下,在有限样本击穿点上找到相应的上限。ε∗≤12ε∗≤12\varepsilon^*\leq\frac{1}{2}ε∗nεn∗\varepsilon^*_nnnnnnn 第二部分(句号之后)实际上是微不足道的(鉴于第一部分),但是我找不到方法来证明问题的第一部分(句子)。 在本书中与该问题有关的部分中,发现(p98): 定义2:样本(x_1,\ ldots,x_n)上估计量的有限样本分解点由下式给出:\ varepsilon ^ * _ n(T_n; x_i,\ ldots,x_n):= \ frac {1} {n} \ max \ {m:\ max_ {i_1,\ ldots,i_m} \ sup_ {y_1,\ ldots,y_m} \; || T_n(z_1,\ ldots,z_n)| &lt;\ infty \}ε∗nεn∗\varepsilon^*_nTnTnT_n(xl,…,xn)(xl,…,xn)(x_l,\ldots, x_n) ε∗n(Tn;xi,…,xn):=1nmax{m:maxi1,…,imsupy1,…,ym|Tn(z1,…,zn)|&lt;∞}εn∗(Tn;xi,…,xn):=1nmax{m:maxi1,…,imsupy1,…,ym|Tn(z1,…,zn)|&lt;∞}\varepsilon^*_n(T_n;x_i,\ldots,x_n):=\frac{1}{n}\max\{m:\max_{i_1,\ldots,i_m}\sup_{y_1,\ldots,y_m}\;|T_n(z_1,\ldots,z_n)|<\infty\} 其中通过将m个数据点 x_ {i_1},\ ldots,x_ {i_m}替换为任意值 y_1,\ ldots,y_m来获得样本(z_1,\ ldots,z_n)。(z1,…,zn)(z1,…,zn)(z_1,\ldots,z_n)mmmxi1,…,ximxi1,…,ximx_{i_1},\ldots,x_{i_m}y1,…,ym.y1,…,ym.y_1,\ldots,y_m. \ varepsilon ^ …

2
具有O(1)更新效率的稳健均值估计
我正在寻找对具有特定属性的均值的可靠估计。我有一组要为其计算此统计信息的元素。然后,我一次添加一个新元素,对于每个其他元素,我想重新计算统计信息(也称为在线算法)。我希望此更新计算速度很快,最好是O(1),即不依赖于列表的大小。 通常的平均值具有此属性,可以有效地对其进行更新,但对异常值不具有鲁棒性。均值的典型鲁棒估计量(如四分位数间均值和修剪均值)无法有效更新(因为它们需要维护排序列表)。 对于可以有效计算/更新的可靠统计信息的任何建议,我将不胜感激。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.