据我了解,英国学校教导说使用以下方法可以找到标准偏差:
而美国学校则教:
(无论如何都是基本水平)。
过去,这曾导致我的许多学生在Internet上进行搜索时遇到问题,但发现了错误的解释。
为什么会有所不同?
如果使用简单的数据集(例如10个值),那么如果采用错误的方法(例如,在检查中),将会出现什么程度的错误?
据我了解,英国学校教导说使用以下方法可以找到标准偏差:
而美国学校则教:
(无论如何都是基本水平)。
过去,这曾导致我的许多学生在Internet上进行搜索时遇到问题,但发现了错误的解释。
为什么会有所不同?
如果使用简单的数据集(例如10个值),那么如果采用错误的方法(例如,在检查中),将会出现什么程度的错误?
Answers:
第一个公式是总体标准偏差,第二个公式是样本标准偏差。第二个公式也与方差的无偏估计有关- 有关更多详细信息,请参见Wikipedia。
我想(在这里)在英国,他们没有在高中样本和人口之间进行区分。他们当然不会碰到有偏估计量之类的概念。
因为还没有人回答最后一个问题,即量化两个公式之间的差异,所以我们来解决这个问题。
由于许多原因,比较标准偏差的比率而不是差异是合适的。比例是
近似值可以视为舍去平方根的(交替)泰勒级数,表示误差不能超过=1/(8N2)。这可以确定,一旦N为2或更大,则近似值足以满足我们的目的。
立即可以看出,一旦超过5,两个SD估计值彼此之间(大约)在10%之内,一旦N超过10,两个SD估计值在5%之内,依此类推。显然,出于许多目的,这些差异是如此之小,以至于使用哪种公式都无所谓,尤其是当SD用于描述数据的传播或进行半定量评估或预测时(例如在采用68-95时) -99.7经验法则)。比较时,差异甚至不那么重要SD,例如在比较两个数据集的传播时。(当数据集相等时,差异会完全消失,并且两个公式都得出相同的结论。)可以说,这是我们试图教初学者的推理形式,因此,如果学生开始担心使用哪种公式,可以认为这是文本或课程未能强调真正重要的内容的标志。
我们可能要注意非常小的的情况。例如,这里的人们可能正在使用t检验而不是z检验。在这种情况下,必须使用表格或软件使用的标准偏差的任何公式。(这不是一个公式是对还是错的问题;这只是一个一致性要求。)大多数表使用s,而不是s n:这是基本课程提纲中的一个地方,课本和老师需要清楚说明哪个地方使用的公式。
我不确定这纯粹是美国与英国的问题。该页面的其余部分摘自我写的一个常见问题解答。(http://www.graphpad.com/faq/viewfaq.cfm?faq=1383)。
如何用分母中的n-1计算SD
计算每个值与样本均值之差的平方。
将这些值相加。
将总和除以n-1。结果称为方差。
取平方根以获得标准偏差。
为什么是n-1?
在计算标准偏差时,为什么要除以n-1而不是n?在步骤1中,您将计算每个值与这些值的平均值之间的差。您不知道人口的真实中位数;您所知道的只是样本的平均值。除了样本均值恰好等于总体均值的极少数情况外,数据将比实际均值更接近样本均值。因此,您在第2步中计算出的值可能会比在第1步中使用真实总体均值时要小(且不能大)。要弥补这一点,请除以n-1而不是比nv称为贝塞尔校正。
但是为什么要n-1?如果您知道样本均值以及除一个值外的所有值,则可以计算出最后一个值必须是什么。统计人员说有n-1个自由度。
SD何时应使用分母n而不是n-1计算?
统计书通常在分母中显示两个方程式来计算SD,一个方程式使用n,另一个方程式使用n-1。一些计算器有两个按钮。
n-1方程式通常用于分析数据样本并希望得出更一般性结论的情况。以这种方式计算的SD(分母为n-1)是您对总体中SD值的最佳猜测。
如果您只是想量化一组特定数据的变化,并且不打算外推得出更广泛的结论,则可以使用分母中的n计算SD。所得的SD是这些特定值的SD。如果要估计从中得出这些点的总体的SD,则以这种方式计算SD毫无意义。仅当没有总体样本时才需要在分母中使用n,并且不希望得出一般性结论。
科学的目标几乎总是泛化,因此不应该使用分母中带有n的方程。我能想到的唯一例子就是量化考试成绩之间的差异。但是更好的方法是显示每个分数的散点图或频率分布直方图。
由于N是数据集中的点数,因此可以说,通过计算平均值,可以将数据集的自由度降低1(因为有人将依赖项引入了数据集中),因此应该使用N当从一个数据集估计标准差时,该值应为-1,而之前必须为其估计平均值。