稳健的均值估计中的速成过程


15

我有一堆(大约1000个)估计值,它们都应该是长期弹性的估计值。多一点的这些一半是使用方法A和使用方法B.带我读的东西,如“我认为B法估计的东西剩下的估计不是方法的不同,因为估计是多少(50-60%)高”。我对稳健统计的了解几乎是零,所以我只计算了两个样本的样本均值和中位数...,我立即看到了差异。方法A非常集中,中位数和均值之间的差异很小,但是方法B样本变化很大。

我得出的结论是,离群值和测量误差使方法B的样本倾斜,因此我丢弃了大约50个值(约15%),这与理论非常不一致...并且突然之间,两个样本的均值(包括其CI)非常相似。密度图也是如此。

(为消除异常值,我查看了样本A的范围,并删除了样本B之外的所有样本点。)我想告诉你,我在哪里可以找到一些可靠的均值估算基础请允许我更严格地判断这种情况。并有一些参考。我不需要对各种技术有很深入的了解,而是通过对鲁棒估计方法的全面调查来阅读。

我在去除异常值后进行了t均值显着性检验,p值为0.0559(t约为1.9),对于全部样本,t stat约为4.5。但这并不是真正的重点,手段可能有所不同,但是如上所述,它们不应相差50-60%。而且我认为他们没有。


3
您打算使用这些数据进行什么分析?消除异常值的做法在统计上具有可信度:您可以通过“制作数据”在任何级别上赋予重要性或缺乏重要性。使用方法A和B进行测量的总体A和B是真正的同质总体,还是您的方法刚刚给了您不同的总体?
AdamO'3

数据将不再做进一步的计算或分析。根据最近的研究,提到的两种方法是一致的,因此总体应该是同质的。但是数据质量不高,很明显B中的某些值是错误地存在的(该方法容易出错),它们绝对不具有经济意义。我知道撤职是可疑的,这就是为什么我要寻找更严格和更可靠的东西。
Ondrej 2012年

Answers:


18

您是在寻找理论还是实际的东西?

如果您正在寻找书籍,以下内容对我有帮助:

  • FR Hampel,EM Ronchetti,PJRousseeuw,WA Stahel,《稳健统计:基于影响函数的方法》,John Wiley&Sons,1986年。

  • PJ Huber,《稳健统计》,约翰·威立父子出版社,1981年。

  • PJ Rousseeuw,AM Leroy,稳健回归和离群值检测,John Wiley&Sons,1987年。

  • RG Staudte,SJ Sheather,“ 稳健估计和测试”,John Wiley&Sons,1990年。

如果您正在寻找实用的方法,这里有几种可靠的均值估计方法(“位置估计器”是更原则的术语):

  • 中位数是简单的,众所周知的并且非常强大。它对异常值具有出色的鲁棒性。健壮性的“价格”约为25%。

  • 5%修剪的平均值是另一种可能的方法。在这里,您丢弃了5%的最大值和5%的最小值,然后取结果的平均值。这对于异常值的鲁棒性较弱:只要损坏的数据点不超过5%,就可以了,但是,如果损坏的数据点超过5%,则突然变得可怕(不会优雅地降级)。健壮性的“价格”小于中位数,尽管我不知道它到底是什么。

  • {(xi+xj)/2:1ijn}n(n+1)/2x1,,xn是观察结果。这具有非常好的鲁棒性:它可以处理多达29%的数据点损坏,而不会完全崩溃。鲁棒性的“价格”很低:大约5%。它是中位数的替代方案。

  • 四分位均值是有时使用的另一个估计量。它计算第一和第三四分位数的平均值,因此易于计算。它具有非常好的鲁棒性:它可以容忍高达25%的数据点损坏。但是,健壮性的“价格”是微不足道的:约25%。结果,这似乎不如中位数。

  • 还提出了许多其他措施,但上述措施似乎是合理的。

简而言之,我建议使用中位数估计值,也可能建议使用Hodges-Lehmann估计值。

PS哦,我应该解释一下坚固性的“价格”是什么意思。强大的估算器旨在即使您的某些数据点已损坏或存在异常情况也可以正常工作。但是,如果您对没有异常值也没有损坏的数据集使用鲁棒的估计器怎么办?理想情况下,我们希望健壮的估算器能够尽可能有效地利用数据。在这里,我们可以通过标准误差(直觉上是估算器产生的估算中的典型误差量)来衡量效率。众所周知,如果您的观测值来自高斯分布(iid),并且如果您不需要鲁棒性,那么平均值是最佳的:它具有最小的估计误差。以上是鲁棒性的“价格”,如果我们对这种情况应用特定的鲁棒估计量,则标准误差会增加多少。中位数的鲁棒性价格为25%意味着具有中位数的典型估计误差的大小将比具有均值的典型估计误差的大小大25%。显然,“价格”越低越好。


n(n+1)/2(xi+xj)/21ijnwilcox.test(..., conf.int=TRUE)

+1,这真的很棒。但是,我有一个提要:在您的上一段中,我不会使用“错误术语”一词,因为它通常用来表示其他含义。我将使用“抽样分布的标准误差”或仅使用“标准误差”。
gung-恢复莫妮卡

一个非常结构化和简洁的答案,谢谢!概述是我所需要的,我将通读Henrik建议的论文,并应涵盖其中。对于漫长的夏日夜晚娱乐活动,我一定会检查您和jbowman建议的书。
Ondrej 2012年

@caracal,您是正确的。我对HL估计量的描述不正确。感谢您的更正。我已经相应更新了答案。
DW 2012年

谢谢,@ gung!我已经按照您的建议对答案进行了编辑,以使用“标准错误”。
DW 2012年

7

如果您喜欢简短易懂的内容,请参考以下心理学文献中的文章:

埃塞格·赫恩(Derceg-Hurn),DM&米罗斯维奇(Mirosevich),VM(2008)。现代可靠的统计方法:一种使研究的准确性和功能最大化的简便方法。 美国心理学家,63(7),591–601。doi:10.1037 / 0003-066X.63.7.591

他们主要依靠Rand R Wilcox的书(当然也不太数学):

Wilcox,RR(2001)。现代统计方法的基本原理:大大提高功能和准确性。纽约; 柏林:施普林格。
Wilcox,RR(2003)。应用当代统计技术。阿姆斯特丹 波士顿:学术出版社。
Wilcox,RR(2005)。稳健估计和假设检验简介。学术出版社。


5

一本将理论与实践很好地结合在一起的书是Jurečková和Picek的《R的稳健统计方法》。我也喜欢Maronna等人撰写的Robust Statistics。但是,这两种方法的数学运算都可能超出您的预期。对于专注于R的更实用的教程,此BelVenTutorial pdf可能会有所帮助。


啊,教授 尤雷科夫(Jurečková)—我们大学的老师,赔率是多少。我将检查这两本书。尽管我正在寻找一份更...简短的文档(因为这个问题对我来说是非常微不足道的),但深入研究它也没有什么害处。谢谢!
Ondrej 2012年

1
这是一个很小的世界!好吧,至少我通过从您的评论中复制来纠正了拼写...
jbowman 2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.