均值,中位数和众数之间的经验关系


40

对于中等偏斜的单峰分布,我们在均值,中位数和众数之间具有以下经验关系: 这种关系如何派生出来的?

(Mean - Mode)3(Mean - Median)

在形成这个结论之前,卡尔·皮尔森(Karl Pearson)是否绘制了成千上万个这样的关系,还是在这种关系背后有逻辑上的推理?

Answers:


29

表示平均值(平均值),表示中位数,表示标准偏差为,表示模式为最后,令为样本,这是连续的单峰分布的实现,为此存在前两个矩。σ 中号X ˚FμmσMXF

众所周知

(1)|μm|σ

这是一个频繁的教科书练习:

|μm|=|E(Xm)|E|Xm|E|Xμ|=E(Xμ)2E(Xμ)2=σ
第一等式源自均值的定义,第三个是因为中位数是的唯一最小值(在所有)。第四个是詹森不等式(即凸函数的定义)。实际上,这种不平等可以加剧。实际上,对于任何满足上述条件的,可以证明[3]E | X c | FcE|Xc|F

(2)|mμ|0.6σ

即使通常不正确(Abadir,2005年),任何单峰分布都必须满足 ,仍然可以证明不等式

Mmμ or Mmμ

(3)|μM|3σ

适用于任何单峰方形可积分布(不考虑偏斜)。约翰逊和罗杰斯(1951)正式证明了这一点,尽管该证明取决于许多辅助引理,但这些引理在这里很难适用。去看原纸。


在[2]中给出了分布满足的充分条件。如果:μ 中号˚FFμmMF

(4)F(mx)+F(m+x)1 for all x

然后。此外,如果,则不等式是严格的。皮尔逊类型I到XII分布是满足 [4]的一组分布的一个示例(例如,威布尔是一种不包含常见分布,请参见[5])。μmMμm(4)(4)

现在假设严格成立,并写出,我们得到 (4)σ=1

3(mμ)(0,30.6] and Mμ(mμ,3]

并且由于这两个范围中的第二个都不为空,因此肯定可以找到断言为真的分布(例如,当)对于分布参数值的某个范围,但并非对所有分布都适用,甚至对于满足所有分布也不适用。40<mμ<33<σ=1(4)

  • [0]:单峰分布的矩问题。NL Johnson和CA Rogers。数学统计年鉴,第一卷。22,No.3(1951年9月),第433-439页
  • [1]:中位数模式不平等:反例Karim M. Abadir计量经济学理论,第1卷。21,No.2(2005年4月),第477-482页
  • [2]:WR van Zwet,均值,中位数,模式II,统计员。Neerlandica,33(1979),第1--5页。
  • [3]:单峰分布的均值,中位数和众数:一种表征。S. Basu和A. DasGupta(1997)。理论Probab。Appl。,41(2),210-223。
  • [4]:关于均值,中位数,众数和偏度的一些评论。佐藤道一 澳大利亚统计杂志。第39卷,第2期,第219-224页,1997年6月
  • [5]:PT von Hippel(2005)。均值,中位数和偏斜:更正教科书规则。《统计教育杂志》第13卷,第2期。

对不起,我只是数学系的一年级学生。您能否提供/推荐描述该关系如何产生的链接/书/论文?
萨拉(Sara)2010年

3
@Sara我认为这可以追溯到Karl Pearson,他将这种经验关系用于他的“ Pearson模式偏度”。除此之外,您可能会在此在线文章j.mp/aWymCv中发现有趣的内容
chl

谢谢chl和kwak提供的链接和答案。我会研究它们。
萨拉(Sara)2010年

2
各点:当是的中位数时,最小化。冯·希佩尔(Von Hippel)的文章(在上面由chl链接)讨论了例外情况,并且btinternet.com/~se16/hgb/median.htm显示了连续分布和离散分布的均值,中位数,众数和标准差之间的可能关系。实际上3可以取任何值:正,负,零或无穷大。ķ XE|Xk|kX
亨利

1
可能是我有点笨(这不是第一次)。您能否阐明遵循(1)和(3)?|Mμ|3|μm|
Glen_b'2

9

论文chl指出了一些重要的信息-表明它与通用规则并不接近(即使对于连续,平滑,“行为良好”的变量,例如Weibull)也是如此。因此,尽管通常可能近似正确,但事实并非如此。

那么,皮尔逊来自哪里?他是如何得出这个近似值的?

幸运的是,皮尔逊几乎可以自己告诉我们答案。

在我们所使用的意义上,“歪斜”一词的首次使用似乎是皮尔森,1895 [1](出现在标题中)。他似乎在这里介绍了模式一词(脚注,p345):

我发现将术语“ 模式”用于对应于最大频率纵坐标的横坐标很方便。“均值”,“模式”和“中位数”具有对统计学家重要的不同特征。

这似乎也是他对频率曲线系统的第一个真正的细节。

因此,在讨论Pearson III型分布中形状参数的估计(我们现在将其称为偏移-甚至可能翻转-伽玛)时,他说(p375):

p

*这对应于形状参数的伽玛>1

x

实际上,如果我们查看伽玛分布的(均模)与(均值中位数)之比,则会观察到:

在此处输入图片说明

(蓝色部分标记了皮尔逊所说的近似值是合理的区域)。

αβ

在此处输入图片说明

(带有的beta子家族的特定选择βα=kβααβααββ+α=cβ+ααβ

α>10

在此处输入图片说明

eμσ2,eμeμ+σ2/2

eμeσ2/2eσ2eσ2/21σ232σ212σ2σ2

有很多众所周知的分布-皮尔森(Pearson)熟悉其中的一些-对于广泛的参数值,它几乎是正确的;他在伽玛分布中注意到了这一点,但是当他开始研究他可能会考虑的其他几种分布时,这个想法就会得到确认。

[1]:Pearson,K.(1895),
“对演化数学理论的贡献,II:均质材料的
偏斜变化”,《皇家学会哲学丛书》,系列A,186,343-414
[版权。在这里免费提供]


4

此关系不是派生的。人们注意到,凭经验它近似地保持在近对称分布上。参见尤尔(Yule)在《统计理论导论》(1922),第121页,第七章第20节中的论述。他提供了经验示例。


+1的确,我对Pearson 1895的引用表明,这是他注意到而不是衍生出来的。
Glen_b

2
旧的数学课本比今天的写作有趣得多
Aksakal
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.