什么是标准偏差,如何计算以及在统计中的用途?
什么是标准偏差,如何计算以及在统计中的用途?
Answers:
标准偏差是代表一组数据的“散布”或“分散”的数字。还有其他传播指标,例如范围和方差。
以下是一些示例数据集及其标准差:
[1,1,1] standard deviation = 0 (there's no spread)
[-1,1,3] standard deviation = 1.6 (some spread)
[-99,1,101] standard deviation = 82 (big spead)
以上数据集具有相同的平均值。
偏差表示“与均值的距离”。
“标准”在这里是指“标准化”,是指标准差和均值在同一单位内,与方差不同。
例如,如果平均高度为2 米,则标准偏差可能为0.3 米,而方差为0.09 米见方。
很容易知道,至少有75%的数据点始终位于平均值的2个标准差之内(如果分布为正态,则大约为95%)。
例如,如果平均值为100,标准偏差为15,则至少75%的值在70到130之间。
如果分布恰好是正态分布,则其中95%的值在70到130之间。
一般来说,IQ测试成绩呈正态分布,平均为100。“非常聪明”的人比平均值高两个标准差,这意味着IQ测试成绩为130。
在描述变量时,我们通常使用两种度量对其进行总结:中心度量和价差度量。中心的常见度量包括均值,中位数和众数。常用的价差包括方差和四分位间距。
当报告均值时,通常使用方差(由希腊小写西格马西格马提至幂2表示)。方差是变量的均方差。通过从每个观察值中减去平均值来计算偏差。这是平方的,因为否则总和将为零,并且平方可以消除此问题,同时保持偏差的相对大小。使用变化量作为扩展量度的问题在于它是平方单位。例如,如果我们感兴趣的变量是以英寸为单位的高度,那么方差将以平方英寸的形式报告,这没有什么意义。标准偏差(由希腊小写的sigma表示)是方差的平方根,并将价差的度量返回到原始单位。
使用标准偏差时,必须注意离群值,因为它们不是标准的扩展度量,因为它们会使标准差(和均值)产生偏差。一个简单的示例将说明此属性。我可怕的板球击球得分分别为13、14、16、23、26、28、33、39和61,平均值为28.11。如果我们认为61是一个离群值并将其删除,则平均值将为24。
这是我将使用图表回答此问题的方式。
假设我们称重30只猫,然后计算平均体重。然后我们生成一个散点图,y轴上的权重,x轴上的猫同一性。平均重量可以绘制为水平线。然后,我们可以画出将每个数据点连接到均值线的垂直线-这些是每个数据点与均值的偏差,我们称它们为残差。现在,这些残差很有用,因为它们可以告诉我们有关数据分布的一些信息:如果有很多大残差,那么猫的质量变化很大。相反,如果残差主要很小,则猫的平均体重就非常接近。因此,如果我们有一些指标可以告诉我们平均值此数据集中残差的长度,这将是一种方便的方式来表示数据中有多少分布。标准偏差实际上是平均残差的长度。
接下来,我将对sd进行计算,解释为什么我们先平方根然后平方根(我喜欢Vaibhav简短而甜美的解释)。然后,我要像格雷厄姆在上一段中提到的那样,提出离群值问题。
如果所需的信息是有关均值的数据分布,则标准偏差非常有用。
每个值与均值之差的总和为零(显然,因为该值均匀地分布在均值周围),因此我们对每个差取平方,以便将负值转换为正值,在总体中求和,然后取它们的总和。平方根。然后,将该值除以样本数(或总体大小)。这给出了标准偏差。
标准偏差是分布的第二个中心矩的平方根。中心矩是与分布的期望值的期望差。第一中心矩通常为0,因此我们将第二中心矩定义为随机变量与其期望值的平方距离的期望值。
为了使其与原始观测值更接近,我们将第二个中心矩的平方根作为标准偏差。
标准差是人口的财产。它衡量该人口的平均“分散度”。所有的混淆是否都集中在均值周围,还是广泛散布?
为了估计总体的标准偏差,我们经常计算该群体的“样本”的标准偏差。为此,您可以从该总体中获取观察值,计算这些观察值的平均值,然后计算与该“样本平均值”的平均平方偏差的平方根。
为了获得方差的无偏估计量,您实际上并没有计算出样本均值的平均平方偏差,而是将其除以(N-1),其中N是样本中观测值的数量。注意,该“样本标准偏差”不是标准偏差的无偏估计量,但是“样本标准偏差”的平方是总体方差的无偏估计量。
我了解标准差的最好方法是考虑一个美发师!(您需要从理发店收集数据并平均她的剪发速度,此示例才能正常工作。)
理发器平均要花费30分钟来剪头发。
假设您进行了计算(大多数软件包都将为您执行此操作),您发现标准偏差为5分钟。这意味着:
我怎么知道 您需要查看法线曲线,其中68%落在平均值的1个标准偏差内,而96%落在平均值的2个标准偏差内。因此,您可以从平均值中添加或减去标准差。
如果在这种情况下需要一致性,则标准偏差越小越好。在这种情况下,梳妆台与任何给定的客户最多花费大约40分钟的时间。您需要快速修剪头发,才能成功运行轿车!