标准偏差完全错误吗?如何计算高度,计数等(正数)的std?


13

假设我正在计算高度(以厘米为单位),并且数字必须大于零。

这是示例列表:

0.77132064
0.02075195
0.63364823
0.74880388
0.49850701
0.22479665
0.19806286
0.76053071
0.16911084
0.08833981

Mean: 0.41138725956196015
Std: 0.2860541519582141

在此示例中,根据正态分布,值的99.7%必须在平均值的标准偏差的±3倍之间。但是,即使两次标准偏差也变为负值:

-2 x std calculation = 0.41138725956196015 - 0.2860541519582141 x 2 = -0,160721044354468

但是,我的数字必须为正。因此它们必须大于0。我可以忽略负数,但是我怀疑这是使用标准差计算概率的正确方法。

有人可以帮助我了解我是否以正确的方式使用它吗?还是我需要选择其他方法?

老实说,数学就是数学。是否为正态分布都没有关系。如果它适用于无符号数字,那么它也应适用于正数!我错了吗?

编辑1:添加直方图

更清楚地说,我添加了我的真实数据的直方图 在此处输入图片说明

EDIT2:一些值

Mean: 0.007041500928135767
Percentile 50: 0.0052000000000000934
Percentile 90: 0.015500000000000047
Std: 0.0063790857035425025
Var: 4.06873389299246e-05

28
我认为这里的误解是只能具有正数的分布是不正常的,因此您声明的99.7%规则不适用。其次,从(样本)标准偏差公式中,您可以看到任何原始值都为正没有条件-那么为什么会错呢?可能是错误地使用了它,但是统计信息大部分是不可知的,不应盲目地应用。
Momo

8
在68-95-99.7规则,@Momo的美妙之处在于它甚至适用于许多明确的非正态分布。在这种情况下,数字的50%在平均值的1 sd之内,而100%在平均值的2 sd之内。可以观察到68%的准确度近似于50%,而95%的准确度近似于100%在我们期望的如此小的数据集的偏差内。因此,该示例确实说明了经验法则,尽管由于其尺寸小而可能有些令人信服。
ub

2
我同意。我将其更正为“因此您声明的99.7%规则不一定适用”。造成这种混乱的原因似乎是将其应用为经验法则,而不是根据您的细微差别“大约在我们期望的偏差之内”。OP的最后评论仅显示了这一点。
Momo

4
标题应该更改为“如何将68-95-99.7规则应用于必须为正的数据”吗?我认为这更能体现问题的精神。(标题所暗示的,标准差的计算方式不是问题,而是用来查找概率的方法。)
Silverfish '18年

4
标准偏差不是“错误”。较不准确的是将普通事物视为不正确的事物。正态性所暗示的给定数量的标准偏差之外的比例对于其他分布并不总是准确的。对于连续的单峰分布,两个区间的偏差通常接近2个标准差,但是距离越远,尾部概率可能具有很高的相对误差。
Glen_b-恢复莫妮卡

Answers:


23

如果您的数字只能为正数,则根据您的使用情况,可能不希望将它们建模为正态分布,因为所有实数都支持正态分布。

也许您想将高度建模为指数分布,或者将截断的正态分布建模?

编辑:看到您的数据后,它看起来确实很适合指数分布!您可以通过采用例如最大似然法来估算参数。λ


10
第一句话通常是不正确的:许多严格为正的量通常可以通过正态分布来近似。如果低于0的概率质量很小,那么就所有实际目的而言都无关紧要。在这种情况下,肯定是正确的。
COOLSerdash

13
-1这个答案反映了人们对统计模型是什么以及用正态分布对数据建模的真正含义的广泛误解(并且是有害的)。确实,如果我们相信这篇文章所说的话,那么用正态分布来近似二项式分布将“肯定是不正确的”-但这在历史上是正态分布的最初且可能是最广泛使用!(编辑:我删除了downvote,因为你修改了原先的主张变成一个更加正确和有用的。)
whuber

4
这取决于您所说的“高级”。模型的部分成本在于实现模型所需的成本。如果您采用截断的法线模型,则可能要进行大量的自定义数值计算,而不是快速,轻松并且也许是非常精确的分析计算。模型的另一个目的是提供洞察力:一个人认为:“如果自然至少像这些假设那样表现,那么可以从这些假设中推断出什么后果?” 通常,通过简单的近似就可以更容易地进行此类推断。
ub

2
@whuber:在“非常准确”之后,我在脑海中添加了“错误”。抱歉。当然,每个Box也“有用”。
Stephan Kolassa,

2
即使数据包含非整数值?
凯文·李

19

“将68-95-99.7应用于我的案件的正确方法是什么?”

只有当您(1)查看整个(无限)总体理论概率分布,并且(2)分布完全是正态分布时,才应该期望覆盖的经验法则完全适用。

如果您随机抽样一个大小为20的样本,即使是从正态分布中抽样,您也不会总是发现95%的数据(20个项目中的19个)在均值的2个标准偏差(或1.960个标准偏差)内。实际上,既不能保证20项中的19项位于总体平均值的1.960总体标准差之内,也不能保证20项中的19项位于样本平均值的1.960样本标准差之内。

如果您从分布不是很正态的分布中抽取数据样本,那么您也不会期望68-95-99.7规则能够准确应用。但是这样做可能会相当接近这样做,特别是如果样本量很大(样本量小于1000时“ 99.7%覆盖率”的经验法则可能没有特别意义)并且分布合理地接近正态分布。从理论上讲,许多数据(例如身高或体重)不能来自精确的正态分布,或者暗示它们为负的可能性很小,但非零。但是,对于具有近似对称和单峰分布的数据,其中中等值更为常见,并且极高或极低的值出现概率下降的情况,正态分布模型可能足以满足实际目的。如果我的直方图显示出钟形曲线,我可以说我的数据呈正态分布吗?

如果您想要理论上适用于任何分布的绑定范围,请参阅Chebyshev不等式,该不等式指出最多的值可以大于 k1/k2k与平均值的标准偏差。这样可以确保至少有75%的数据位于平均值的两个标准差之内,而89%的数据位于三个标准差之内。但是这些数字只是理论上保证的最小值。对于许多大致呈钟形的分布,您会发现两个标准偏差的覆盖率数字更接近于95%,而不是75%,因此,正态分布的“经验法则”仍然有用。另一方面,如果您的数据来自远不及钟形的分布,那么您也许可以找到一个更好地描述数据并具有不同覆盖范围规则的替代模型。

(关于68-95-99.7规则的一件好事是,它适用于任何正态分布,而不论其均值或标准差的参数如何。同样,Chebyshev不等式适用于任何参数,甚至分布,尽管仅给出覆盖范围的下限,但是,例如,如果应用截断的法线偏斜法线模型,则覆盖率就不会简单地等同于“ 68-95-99.7”,因为它取决于分布参数)


7

有人可以帮助我了解我是否以正确的方式使用它吗?

哦,很简单。不,您没有正确使用它。

首先,您使用的是相当小的数据集。尝试从这个大小集中找出统计行为当然是可能的,但是置信范围很大。对于较小的数据集,与预期分布的偏差为该过程的标准值,并且数据集越小,问题就越大。请记住,“平均法则不仅允许最离谱的巧合,还需要它们。”

更糟糕的是,您正在使用的特定数据集看起来根本不像正态分布。考虑一下-平均数为.498,您有两个样本低于0.1,而另外三个样本为.748或更高。然后,您在.17和.22之间得到了3个点的集群。查看此特定数据集并认为它必须是正态分布是Procrustean论证的一个很好的例子。对您来说,这看起来像钟形曲线吗?较大的人群很可能确实遵循正态分布或修正的正态分布,并且较大的样本量可以解决这个问题,但是我不会打赌,特别是在不了解更多人口信息的情况下。

我说的是修正正态,因为正如李凯文指出的那样,从技术上讲,正态分布包括所有实数。正如在对他的回答的评论中所指出的那样,这并不妨碍在有限范围内应用这种分布并获得有用的结果。俗话说,“所有模型都是错误的。有些模型是有用的。”

但是,这个特定的数据集看起来并不像推断正态分布(即使是在有限范围内)也不是一个好主意。如果您的10个数据点看起来像.275,.325,.375,.425,.475,.525,.575,.625,.675,.725(均值为0.500),您会假设正态分布吗?


我使用了随机数据来解释我的需求和问题
Don Coder

1
@DonCoder随机数据(除非您以某种方式对其进行了调整)将遵循均匀分布,而不是正态分布。
barrycarter

5
需要从某种分布中生成随机数据。您选择了哪一个?
彼得·弗洛姆-恢复莫妮卡

我添加了我的真实数据的直方图
Don Coder

2

在其中一项评论中,您说您使用了“随机数据”,但没有说来自什么分布。如果您谈论的是人类的身高,它们通常呈正态分布,但您的数据远非适合人类的身高-您的身高只有几分之一厘米!

而且您的数据远非正常。我猜您使用边界为0和1的均匀分布,并且生成了一个非常小的样本。让我们尝试一个更大的示例:

set.seed(1234)  #Sets a seed
x <- runif(10000, 0 , 1)
sd(x)  #0.28

因此,没有数据超出平均值2 sd,因为这超出了数据的范围。1 sd内的部分约为0.56。


1

通常,当您有一个样本必须全部为正的约束时,值得查看数据的对数以查看您的分布是否可以由对数正态分布近似。


1

标准偏差计算是相对于平均值。您可以将标准偏差应用于始终为正的数字吗?绝对。如果将样本集中的每个值加1000,您将看到相同的标准偏差值,但是您将为自己提供更多零以上的呼吸空间。

s=i=1N(xix¯)2N1=i=1N((xi+k)(x¯+k))2N1

但是,向数据添加任意常量是肤浅的。当将标准偏差用于如此小的数据集时,您将需要未精炼的输出。像自动对焦相机镜头一样考虑标准偏差:您给它的时间(数据)越多,图片越清晰。如果在跟踪1000000个数据点后,您的平均值和标准偏差仍然与10相同,那么我可能会开始质疑您的实验的有效性。


1

您的直方图显示,正态分布不是很好的拟合。您可以尝试对数正态或其他不对称且严格为正的形式


1

要点是我们很多人都是懒惰的*,正态分布对于我们这些懒惰的人来说很方便。使用正态分布进行计算很容易,并且具有良好的数学基础。因此,它是如何处理数据的“模型”。这种模型通常效果出乎意料,有时甚至会掉在它的脸上。

很明显,您的样本未表明数据中呈正态分布。因此,解决难题的方法是选择不同的“模型”,并使用不同的分布。威布尔分布可能正朝着其他方向发展。

  • 懒于没有真正了解数据并在必要时选择更好的模型。

0

基本上,您使用的是比率数据,而不是间隔数据。地理学家一直在计算特定位置(例如LA Civic Center的100多个采样点)或降雪(Big Bear Lake的100多年的降雪样本)的年度降雨量的S / D。我们只能有正数,事实就是这样。


0

在气象学中,风速的分布看起来确实像这样。根据定义,风速也不为负。

因此,就您而言,我肯定会研究Weibull分布


0

当您的数据显然不是正态分布时,您从“根据正态分布”开始,这是第一个问题。您说:“是否为正态分布都没有关系。” 绝对是胡说八道。如果数据不是正态分布的,则不能使用有关正态分布数据的语句。

您会误解该声明。“ 99.7%必须在三个标准偏差之内”。而您数据的99.7%确实在三个标准差之内。更好的是,它在两个标准偏差内为100%。所以这个说法是正确的

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.