对于具有最小0和最大94.33的样本,我的平均值为74.10,标准差为33.44。
我的教授问我,平均值加一个标准差超过最大值的意思。
我向她展示了许多有关此的示例,但她不理解。我需要一些参考给她看。可能是统计书中专门讨论此问题的任何章节。
对于具有最小0和最大94.33的样本,我的平均值为74.10,标准差为33.44。
我的教授问我,平均值加一个标准差超过最大值的意思。
我向她展示了许多有关此的示例,但她不理解。我需要一些参考给她看。可能是统计书中专门讨论此问题的任何章节。
Answers:
当然,平均值加1 sd可以超过最大观测值。
考虑样本1、5、5、5-
它的平均值为4,标准差为2,因此平均值+ sd为6,比样本最大值大一倍。这是R中的计算:
> x=c(1,5,5,5)
> mean(x)+sd(x)
[1] 6
这很常见。当有一堆高值并且左边有尾巴时(即,当左偏度很强并且峰值接近最大值时),往往会发生这种情况。
-
同样的可能性适用于概率分布,而不仅仅是样本-总体均值加上总体sd可以轻易超过最大可能值。
这里的一个的示例密度,最大可能值为1:
在这种情况下,我们可以查看Wikipedia页面的beta分布,该页面的平均值为:
而方差为:
(尽管我们不必依赖维基百科,因为它们很容易获得。)
所以对于和β = 1,我们有平均≈0.9523和SD≈0.0628,所以平均+ SD≈1.0152,超过1的可能最大。
也就是说,很容易将平均值+ sd的值作为数据值观察不到。
-
对于模式最大的任何情况,皮尔逊模式偏斜度仅需 ,表示mean + sd超过最大值。它可以取正或负的任何值,因此我们可以很容易地看到它。
-
一个密切相关的问题是经常看到与置信区间二项式比例,其中通常使用的间隔中,正态近似间隔可以产生限制之外。
例如,在伯努利试验中考虑成功人口比例的95.4%正常近似间隔(结果分别为1或0分别代表成功和失败事件),其中4个观察结果中的3个为“ ”,一个观察结果为“ 0 ”。
然后,对于时间间隔的上限为p + 2 × √
这仅是样本平均值+二项式sd的通常估计值...并产生不可能的值。
为0,1,1,1通常的样品SD是0.5,而不是0.433(它们之间的区别,因为标准偏差的二项式ML估计p(1 - p)对应于通过将方差Ñ而非ñ - 1) 。但这没有区别-在任何一种情况下,均值+标准差均超过最大可能的比例。
这个事实-二项式的正常近似间隔会产生“不可能的值”,这在书本和论文中经常提到。但是,您不是在处理二项式数据。然而,类似的问题-均值+一些标准偏差不是可能的值。
-
在您的情况下,样本中异常的“ 0”值使sd大于将平均值拉下来的幅度,这就是平均值+ sd高的原因。
-
(问题是- 用什么推理是不可能的? -因为在不知道为什么有人会认为根本存在问题的情况下,我们该怎么解决?)
当然,从逻辑上讲,通过举一个例子来证明这是有可能的。您已经做到了。在没有明确说明为什么不这样做的情况下,您该怎么办?
如果一个例子还不够,那么什么证明是可以接受的?
仅仅指向一本书中的陈述实际上是没有意义的,因为任何一本书都可能做出错误的陈述-我一直都在看。一个人必须依靠直接的证明来证明它是可能的,无论是代数证明(例如可以从上面的beta例子构建的*),还是通过数字例子(您已经给出的例子),任何人都可以自己检查一下真相。 。
* whuber在评论中提供了beta案例的确切条件。
我们想要
将两边取平方