平均值加上一个标准差可以超过最大值吗?


19

对于具有最小0和最大94.33的样本,我的平均值为74.10,标准差为33.44。

我的教授问我,平均值加一个标准差超过最大值的意思。

我向她展示了许多有关此的示例,但她不理解。我需要一些参考给她看。可能是统计书中专门讨论此问题的任何章节。


为什么要从平均值中增加(或减去)一个标准偏差?SD是对数据传播的度量。您是否想要平均值的标准误?
恢复莫妮卡-G.辛普森2014年

我不想加减,想要这个的是我的教授。这就是她理解标准偏差的方式
Boyun Omuru

5
一个有趣的例子是样本(0.01,0.02,0.98,0.99)。均值加上标准偏差以及均值减去标准偏差都在[0,1]之外。
Glen_b-恢复莫妮卡2014年

也许她只是在考虑正态分布?
user765195 2014年

Answers:


28

当然,平均值加1 sd可以超过最大观测值。

考虑样本1、5、5、5-

它的平均值为4,标准差为2,因此平均值+ sd为6,比样本最大值大一倍。这是R中的计算:

> x=c(1,5,5,5)
> mean(x)+sd(x)
[1] 6

这很常见。当有一堆高值并且左边有尾巴时(即,当左偏度很强并且峰值接近最大值时),往往会发生这种情况。

-

同样的可能性适用于概率分布,而不仅仅是样本-总体均值加上总体sd可以轻易超过最大可能值。

这里的一个的示例密度,最大可能值为1:beta(10,12)

在此处输入图片说明

在这种情况下,我们可以查看Wikipedia页面的beta分布,该页面的平均值为:

E[X]=αα+β

而方差为:

变种[X]=αβα+β2α+β+1个

(尽管我们不必依赖维基百科,因为它们很容易获得。)

所以对于β = 1α=10,我们有平均0.9523和SD0.0628,所以平均+ SD1.0152,超过1的可能最大。β=1个20.95230.06281.0152

也就是说,很容易将平均值+ sd的值作为数据值观察不到

-

对于模式最大的任何情况,皮尔逊模式偏斜度仅需 ,表示mean + sd超过最大值。它可以取正或负的任何值,因此我们可以很容易地看到它。<-1个

-

一个密切相关的问题是经常看到与置信区间二项式比例,其中通常使用的间隔中,正态近似间隔可以产生限制之外[01个]

例如,在伯努利试验中考虑成功人口比例的95.4%正常近似间隔(结果分别为1或0分别代表成功和失败事件),其中4个观察结果中的3个为“ ”,一个观察结果为“ 0 ”。1个0

然后,对于时间间隔的上限为p + 2 × p^+2×1个4p^1个-p^=p^+p^1个-p^=0.75+0.433=1.183

这仅是样本平均值+二项式sd的通常估计值...并产生不可能的值。

为0,1,1,1通常的样品SD是0.5,而不是0.433(它们之间的区别,因为标准偏差的二项式ML估计p1 - p对应于通过将方差Ñ而非ñ - 1) 。但这没有区别-在任何一种情况下,均值+标准差均超过最大可能的比例。p^1个-p^ññ-1个

这个事实-二项式的正常近似间隔会产生“不可能的值”,这在书本和论文中经常提到。但是,您不是在处理二项式数据。然而,类似的问题-均值+一些标准偏差不是可能的值。

-

在您的情况下,样本中异常的“ 0”值使sd大于将平均值拉下来的幅度,这就是平均值+ sd高的原因。

在此处输入图片说明

-

(问题是- 用什么推理是不可能的? -因为在不知道为什么有人会认为根本存在问题的情况下,我们该怎么解决?)

当然,从逻辑上讲,通过举一个例子来证明这是有可能的。您已经做到了。在没有明确说明为什么不这样做的情况下,您该怎么办?

如果一个例子还不够,那么什么证明是可以接受的?

仅仅指向一本书中的陈述实际上是没有意义的,因为任何一本书都可能做出错误的陈述-我一直都在看。一个人必须依靠直接的证明来证明它是可能的,无论是代数证明(例如可以从上面的beta例子构建的*),还是通过数字例子(您已经给出的例子),任何人都可以自己检查一下真相。 。

* whuber在评论中提供了beta案例的确切条件。


5
0<β<1个α>β1个+β/1个-βαβ1个

让我进一步解释。我正在寻找用于矫正牙齿的特定器具的准确度百分比。该设备对7颗牙齿的准确度百分比如下:%76,19,%77,41,%94,33,%91,06,%0,%87,77,%91,96。我的教授在平均值上加上了一个标准偏差,并指出即使%100也不能超过最大值,因为%100是Appliancek可以执行的最大精度百分比。
Boyun Omuru 2014年

2
没错,百分比> 100%对您的情况毫无意义。这个问题实际上是不成文的前提下,添加一个SD的平均值应该是有意义在这种情况下,当它没有。那就是我认为您的困难的根源。如果我们了解前提来自何处,则可能会导致更好的解决方案。可能在某本书的某处陈述了简单的事实(不过这是一个琐碎的观察,所以也有可能不是),但我怀疑这种方式是否会满足她的需求,因为她的错误前提是问题的根源。
Glen_b-恢复莫妮卡2014年

1
确实-我的次要点是,这种好奇心是由标准偏差代表强非对称分布所导致的,而不是由于采样所致。但总的来说,我认为您的回答很好
亨利

2
@tomka我试图帮助许多处于类似职位的学生。我最终了解到(可能并不奇怪)的经验法则,实际上不可能通过他们的学生向主管教任何东西。
Glen_b-恢复莫妮卡

4

根据切比雪夫不等式,小于k -2点的距离可以大于k标准差的距离。因此,对于k = 1,这意味着少于100%的样本可以超过一个标准偏差。

看看下界更有趣。您的教授应该更惊讶一些点,其均值比平均值低2.5个标准差。但是我们现在知道,只有大约1/6的样本可以为0。


3

σσ


5
这是一个很好的贡献。不过,我不确定SD是否真的“假定”正态分布。
gung-恢复莫妮卡

3
“分布拟合”和寻找正态性转化是具有不同目标的不同过程。
ub

2

X1个0<p<1个01个-p

ËX=p小号ËX=p1个-p

我们想要

ËX+小号ËX>1个p+p1个-p>1个

p1个-p>1个-p

将两边取平方

p1个-p>1个-p2p>1个-pp>1个2

p>1个/2ËX+小号ËX>最高X

p=0.71个

ü一种bËü+小号Ëü<最高ü=b

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.