估计正态分布的参数:中位数而不是均值?


15

估计正态分布参数的常用方法是使用均值和样本标准差/方差。

但是,如果存在一些离群值,则中位数和与中位数的中位数偏差应该更健​​壮,对吗?

在某些数据集我想,通过估计正态分布N(median(x),median|xmedian(x)|)似乎产生更好的配合比经典N(μ^,σ^)用平均值和RMS偏差。

如果您假设数据集中存在一些离群值,是否有任何理由使用中位数?您知道这种方法的参考吗?在Google上进行快速搜索并没有发现有用的结果来讨论此处使用中位数的好处(但显然,“正态分布参数估计中位数”不是一组非常具体的搜索字词)。

中位数偏差,是否有偏差?我应该乘它n1n减少偏见?

您是否知道其他分布(例如Gamma分布或指数修改的高斯分布)(在参数估计中需要偏度,而离群值确实弄乱了该值)的相似鲁棒参数估计方法吗?


2
如果您有异常值,则可能是您的分布不是真正的高斯正态分布。当然,这不能回答您的问题,但是,海事组织,这是人们应该始终接受的一种可能性。
sds 2013年

2
我没有简单,干净,数学的分布。我有真实的数据,这本质上是一团糟。没有任何分布将是最合适的,因为您不能再通过分析来处理这种情况。异常值实际上是我的兴趣所在。:-)
Erich Schubert

Answers:


15

在一个示例中,该示例涉及从受污染的高斯分布中提取的数据,通过使用而不是med | x med x | 其中X 为:madmed|xmed(x)|mad(x)

mad=1.4826×med|xmed(x)|

--where, 是被设计为确保一致性因子即È X 2= 无功X X是uncontaminated--最初由高斯制成(沃克,H.(1931))。(Φ1(0.75))1=1.4826

E(mad(x)2)=Var(x)
x

在这种情况下,我无法想到不使用代替样本均值的任何原因。疯子的效率较低(在高斯!)可能是您在示例中不使用疯子的原因。但是,对于疯子同样存在健壮和高效的选择。Q n就是其中之一medmadmadmadQn。此估算器除此以外还有许多其他优点。它对异常值也非常不敏感(实际上几乎与狂人一样不敏感)。与疯狂相反,它不是围绕位置估计建立的,也不假定数据的未污染部分的分布是对称的。像疯子一样,它基于顺序统计,因此即使样本的基础分布没有时间,也始终可以很好地定义它。像疯子一样,它具有简单的显式形式。甚至比发疯的还要多,在您描述的示例中,我没有理由使用样本标准偏差代替(有关Q n的更多信息,请参见Rousseeuw和Croux 1993 )。QnQn

至于你的最后一个问题,关于特定情况下,然后xΓ(ν,λ)

med(x)λ(ν1/3)

mad(x)λν

(在两种情况下,当时,近似值都变好),因此 ν>1.5

ν^=(med(x)mad(x))2

λ^=mad(x)2med(x)

有关完整推导,请参见Chen和Rubin(1986)。

  • J. Chen和H. Rubin,1986年。《统计家》中Gamma和Poisson分布的中位数和均值之差的界线。Probab。通讯,4,281-283。
  • PJ Rousseeuw和C. Croux,1993年。《中值绝对偏差的替代方法》,《美国统计协会》,第1卷。88,第424页,第1273-1283页
  • Walker,H.(1931)。统计方法历史研究。马里兰州巴尔的摩:Williams&Wilkins公司,第24-25页。

1
Φ1(0.75)11.4826

@ErichSchubert:你是对的:我忘了第二个反..更正。
user603 2013年

2
n/(n1)方差因数因为后者是通用的,而您的因数仅特定于正态分布:注意,您将不得不更改您的因素。这种差异是为什么差异和标清比MAD拥有更多应用的关键原因之一。
whuber

1
@whuber:谢谢,我现在意识到我的句子“这在精神上是相似 ”很容易被误解。我删除了
user603 2013年

1
我已经将ExNormal部分做了一个单独的问题:stats.stackexchange.com/questions/48907/…但是我还有一个给您:LogNormal分布-通过应用日志进行处理,然后像对待正态分布一样进行?
Erich Schubert

7

如果如您所断言的那样,数据是正常的,而只有一小部分离群值,则中位数和中位数绝对偏差将对严重误差具有鲁棒性,但不会非常有效地利用非外围数据中的信息。

如果您知道离群值比例的先验约束,则可以修整该比例的均值并标准差。另一种不需要这种知识的替代方法是对位置使用M估计量,对方差使用相关量。在某些情况下,如果您的假设是正确的(例如,除少数异常值外,数据实际上是正常的),效率的提高可能是巨大的。

平均偏差被偏置为标准偏差的估计值-但不是ññ-1个调整; 未经调整的样本均方差渐近地趋向于方差,但是样本中值绝对偏差并非渐进地趋于总体标准差。您仅需将其乘以一个常数即可获得一致性。完成此操作后,它仍然是小样本偏差,其含义与未调整的均方值相同。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.