我的直觉是标准偏差是:数据传播的度量。
您有一个好点,即宽还是窄取决于我们对数据分布的基本假设。
警告:当您的数据分布围绕均值对称并且方差相对接近正态分布时,散度度量最有用。(这意味着它大约是正常的。)
在数据近似于法线的情况下,标准偏差具有规范的解释:
- 区域:样本平均值+/- 1标准偏差,包含大约68%的数据
- 区域:样本平均值+/- 2标准偏差,包含大约95%的数据
- 区域:样本平均值+/- 3标准偏差,包含大约99%的数据
(请参阅Wiki中的第一个图形)
这意味着如果我们知道总体平均值为5,标准偏差为2.83,并且假设分布近似于正态,那么我会告诉您,我可以肯定地说,如果我们进行(大量)观察,则只有5%会小于0.4 = 5-2 * 2.3或大于9.6 = 5 + 2 * 2.3。
注意标准差对我们的置信区间有什么影响?(传播越多,不确定性越大)
此外,在通常情况下数据甚至不是近似正常的,但仍然是对称的,您会知道存在一些:α
- 区域:样本均值+/-标准偏差,包含大约95%的数据α
您可以从子样本中学习,也可以假设,这通常为您提供了一个很好的经验法则,可以让您计算出将来的预期结果,或者可以将哪些新的观测结果视为离群值。(但是请记住警告!)α = 2αα=2
我看不到您应该如何解释它。2.83表示值分布得很宽还是全部都围绕均值...
我猜每个问“宽或紧”的问题都应包含:“与什么有关?”。一种建议可能是使用众所周知的发行版作为参考。根据上下文,考虑以下内容可能会很有用:“它是否比“普通/泊松”更宽或更紧?”。
编辑:基于评论中的一个有用提示,关于标准偏差作为距离量度的另一个方面。
标准偏差有用性的另一种直觉是,它是样本数据与它的平均值之间的距离度量:sNx1,…,xNx¯
sN=1N∑Ni=1(xi−x¯¯¯)2−−−−−−−−−−−−−√
作为比较,均方误差(MSE)是统计中最流行的误差度量之一,其定义为:
MSE=1n∑ni=1(Yi^−Yi)2
可以提出为什么上述距离函数?为什么要平方距离而不是绝对距离?为什么我们要扎根?
具有二次距离或误差函数的优势在于我们既可以区分又可以轻松地将它们最小化。就平方根而言,它将误差转换回我们观测数据的范围,从而增加了可解释性。