在一个示例中,该示例涉及从受污染的高斯分布中提取的数据,通过使用而不是med | x − med (x )| 其中狂(X )为:madmed|x−med(x)|mad(x)
mad=1.4826×med|x−med(x)|
--where, 是被设计为确保一致性因子即È (狂(X )2)= 无功(X )
时X是uncontaminated--最初由高斯制成(沃克,H.(1931))。(Φ−1(0.75))−1=1.4826
E(mad(x)2)=Var(x)
x
在这种情况下,我无法想到不使用代替样本均值的任何原因。疯子的效率较低(在高斯!)可能是您在示例中不使用疯子的原因。但是,对于疯子同样存在健壮和高效的选择。Q n就是其中之一medmadmadmadQn。此估算器除此以外还有许多其他优点。它对异常值也非常不敏感(实际上几乎与狂人一样不敏感)。与疯狂相反,它不是围绕位置估计建立的,也不假定数据的未污染部分的分布是对称的。像疯子一样,它基于顺序统计,因此即使样本的基础分布没有时间,也始终可以很好地定义它。像疯子一样,它具有简单的显式形式。甚至比发疯的还要多,在您描述的示例中,我没有理由使用样本标准偏差代替(有关Q n的更多信息,请参见Rousseeuw和Croux 1993 )。QnQn
至于你的最后一个问题,关于特定情况下,然后x∼Γ(ν,λ)
med(x)≈λ(ν−1/3)
和
mad(x)≈λν−−√
(在两种情况下,当时,近似值都变好),因此 ν>1.5
ν^=(med(x)mad(x))2
和
λ^=mad(x)2med(x)
有关完整推导,请参见Chen和Rubin(1986)。
- J. Chen和H. Rubin,1986年。《统计家》中Gamma和Poisson分布的中位数和均值之差的界线。Probab。通讯,4,281-283。
- PJ Rousseeuw和C. Croux,1993年。《中值绝对偏差的替代方法》,《美国统计协会》,第1卷。88,第424页,第1273-1283页
- Walker,H.(1931)。统计方法历史研究。马里兰州巴尔的摩:Williams&Wilkins公司,第24-25页。