有界数据集的变异系数最大值


17

在有关标准偏差是否可以超出均值的最新问题之后的讨论中,曾短暂提出一个问题,但从未完全回答。所以我在这里问。

考虑一组非负数 ,其中表示。不需要是不同的,也就是说,集合可以是多集。该集合的均值和方差定义为 ,标准偏差为。请注意,数字集不是来自总体的样本,我们也不是估算总体均值或总体方差。那么问题是:nxi0xic1inxi

x¯=1ni=1nxi,  σx2=1ni=1n(xix¯)2=(1ni=1nxi2)x¯2
σx

在间隔[0,c]中,对于x_i的所有选择,\ dfrac {\ sigma_x} {\ bar {x}}的最大值σxx¯(变异系数)是多少?xi[0,c]

我可以找到的最大值σxx¯n1 时,其实现了n1所述的xi具有值0和剩余的(离群值)xi 具有值c,给出

x¯=cn,  1nxi2=c2nσx=c2nc2n2=cnn1.
但这根本不依赖于c,我想知道是否可以实现较大的值(可能同时取决于nc

有任何想法吗?我敢肯定,这个问题以前已经在统计文献中进行过研究,因此,即使不是实际结果,也将不胜感激。


我认为您认为这是最大可能的值是正确的,而且令我惊讶的是并不重要。凉。c
彼得·弗洛姆

7
σ Xc不会影响结果,因为不会改变,如果所有值都乘以任何正常数。 ķσxx¯k
亨利

Answers:


15

几何提供洞察力,而经典不等式则使人更容易获得严谨。

几何解

我们知道,从最小二乘几何,即是向量的正交投影数据到由常数向量生成的线性子空间上并且与(Euclidean)距离成正比在和 非负约束是线性的,距离是一个凸函数,因此必须在由约束确定的圆锥边缘上达到极限距离。该圆锥体是的正向正割线X=X1X2...XÑ11...1σXX ˉ XřÑXσX/ ˉ X =x¯=(x¯,x¯,,x¯)x=(x1,x2,,xn)(1,1,,1)σxxx¯.Rn它的边缘是坐标轴,因此,紧随其后的是,除了一个,所有在最大距离处都必须为零。对于这样的一组数据,直接(简单)计算显示xiσx/x¯=n.

利用经典不等式的解决方案

σx/x¯与其任何单调变换同时进行优化。鉴于此,让我们最大化

x12+x22++xn2(x1+x2++xn)2=1n(n1n(σxx¯)2+1)=f(σxx¯).

(的公式可能看起来很神秘,直到您意识到它只是记录了将代数操作使其变成简单形式(即左侧)时要采取的步骤。)fσx/x¯

一个简单的方法始于Holder不等式

x12+x22++xn2(x1+x2++xn)max({xi}).

(在这种简单的上下文中,这不需要特殊的证明:只需将每个项的一个因子替换为最大分量:显然平方和不会减少。通用项产生不等式的右侧。)xi2=xi×ximax({xi})max({xi})

因为都不全为xi0(这将使未定义),所以除以其和的平方即为有效,并给出等价的不等式σx/x¯

x12+x22++xn2(x1+x2++xn)2max({xi})x1+x2++xn.

因为分母不能小于分子(分子本身只是分母中的一项),所以右侧由值占据,只有当除一个都等于时才能实现1xi0。何处

σxx¯f1(1)=(1×(n1))nn1=n.

替代方法

因为都是非负的,并且不能总和为,值确定的概率分布上。为的总和写,我们认识到xi0p(i)=xi/(x1+x2++xn)F{1,2,,n}sxi

x12+x22++xn2(x1+x2++xn)2=x12+x22++xn2s2=(x1s)(x1s)+(x2s)(x2s)++(xns)(xns)=p1p1+p2p2++pnpn=EF[p].

公理的事实是,概率不可能超过意味着该期望也不能超过,但是通过将除所有值都设置为来使它等于很容易,因此之一恰好是非零的。如以上几何解决方案的最后一行所述,计算变异系数。111pi0xi


感谢您提供详细的答案,从中学到了很多东西!我假设的区别在你的答案和,我获得(和亨利确认)是由于您使用的是作为的定义,而我使用nn1
σx=1n1i=1n(xix¯)2
σx
σx=1ni=1n(xix¯)2?
Dilip Sarwate

1
是的,迪利普,是的。对不起,这个问题不对。我应该先检查一下,并应该定义(我打算这样做但忘记了)。σx
ub

10

一些参考,就像其他蛋糕上的小蜡烛:

Katsnelson和Kotz(1957)证明,只要所有,那么变异系数就不会超过。Longley(1952)早先提到了这一结果。Cramér(1946,p.357)的结果不那么清晰,而Kirby(1974)的结果则不太普遍。xi0n1

Cramér,H.,1946年。统计的数学方法。新泽西州普林斯顿:普林斯顿大学出版社。

Katsnelson,J.和S. Kotz。1957年。关于某些可变性度量的上限。 气象学,地球物理与生物气候学,系列B 8:103-107。

Kirby,W.1974。样本统计的代数有界性。水资源研究 10:220-222。

Longley,RW,1952年。降水变化的度量。每月天气回顾 80:111–117。

我在工作中遇到了这些论文

Cox,NJ,2010年。样本偏斜度和峰度的限制。Stata Journal 10:482-495。

它讨论了基于矩的偏度和峰度的大致相似的界限。


8

有两个数字,一些和任何:xixjδ>0μ

(xi+δμ)2+(xjδμ)2(xiμ)2(xjμ)2=2δ(xixj+δ)>0.

将其应用于非负数据点,这意味着,除非个数中的一个都为零,否则无法进一步减少,可以通过加宽任何一对数据点之间的间隔来增加方差和标准差。同时保留相同的均值,从而增加了变异系数。因此,数据集的最大变异系数如您所建议:。nnn1

c不会影响结果,因为不会改变,如果所有值都乘以任何正常数(如我在评论中所说)。σxx¯k

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.