在标准差的定义中,为什么我们必须对均值之差取平方才能得到均值(E),并在最后取平方根?我们难道不能只是简单地获取差的绝对值,而获得这些差的期望值(均值),这也不能显示数据的变化吗?该数字将与平方方法不同(绝对值方法将更小),但仍应显示数据的传播。有人知道为什么我们将这种方形方法作为标准吗?
标准偏差的定义:
我们不能只是取绝对值而仍然是一个好的度量吗?
在标准差的定义中,为什么我们必须对均值之差取平方才能得到均值(E),并在最后取平方根?我们难道不能只是简单地获取差的绝对值,而获得这些差的期望值(均值),这也不能显示数据的变化吗?该数字将与平方方法不同(绝对值方法将更小),但仍应显示数据的传播。有人知道为什么我们将这种方形方法作为标准吗?
标准偏差的定义:
我们不能只是取绝对值而仍然是一个好的度量吗?
Answers:
如果标准差的目标是总结对称数据集的范围(即,通常每个数据距均值有多远),那么我们需要一种定义如何测量范围的好方法。
平方的好处包括:
但是,平方的确存在一个衡量价差的问题,那就是所有单位都是平方的,而我们可能更希望价差与原始数据的单位相同(想想平方磅,平方美元或苹果平方)。 。因此,平方根允许我们返回到原始单位。
我想您可以说,绝对差异为数据的传播分配了相等的权重,而平方则强调了极端。从技术上讲,正如其他人指出的那样,平方使代数更易于使用,并提供了绝对方法不具备的特性(例如,方差等于分布平方的期望值减去平方的期望值)。分布的均值)
不过请务必注意,如果这是您希望查看“点差”的方式的偏爱,则没有理由不取绝对差额(有些人认为5%是值的神奇阈值,实际上这取决于情况)。实际上,实际上有几种竞争性方法可用来衡量点差。
我的观点是使用平方值,因为我想考虑它与统计的毕达哥拉斯定理的关系: ……这还帮助我记住,在使用独立随机变量时,方差增加,标准差不增加。但这只是我个人的主观偏爱,我通常只将其用作记忆帮助,请随时忽略此段。
可以在这里阅读更深入的分析。
平方差具有更好的数学性质;它是连续可微的(当您想最小化它时很不错),它对于高斯分布是足够的统计量,并且是L2范式(的一个版本),可用于证明收敛性等。
平均绝对偏差(您建议的绝对值表示法)也用作色散的量度,但不如平方误差“表现良好”。
的原因,我们计算标准差,而不是绝对的错误是,我们假设误差为正态分布。这是模型的一部分。
假设您使用尺子测量了非常小的长度,那么标准偏差就不是衡量错误的好方法,因为您知道自己绝不会意外地测量到负长度。更好的指标是可以帮助您将Gamma分布拟合到您的测量中的指标:
像标准偏差一样,这也是非负且可微的,但是对于此问题,它是更好的误差统计量。
最令我满意的答案是,它自然地从将样本推广到n维欧式空间。是否应该执行此操作当然值得商,,但无论如何:
假设您的测量值分别是一个轴。然后,数据在该空间中定义一个点。现在您可能会注意到数据彼此非常相似,因此可以使用一个位置参数表示它们,该位置参数被约束为位于定义的行上。将数据点投影到该行上可以得到,并且从投影点到实际数据点的距离为。X 我ř Ñ X 我 X μ X 我 = μ μ = ˉ X μ 1 √
这种方法还可以为您提供相关性的几何解释,即。
另一个原因(除了上述出色的方面)来自费舍尔本人,他表明标准偏差比绝对偏差“更有效”。在这里,有效与一个统计数据在不同样本中的价值波动多少有关。如果您的总体呈正态分布,则平均而言,各个样本与该总体的标准偏差往往会给您提供彼此非常相似的值,而绝对偏差会给您带来更多分散的数值。现在,显然这是在理想的情况下,但是这个原因使很多人相信了(随着数学变得更清晰),因此大多数人都使用标准偏差进行工作。
方差是附加的:对于独立随机变量, var (X 1 + ⋯ + X n)= var (X 1)+ ⋯ + var (X n)。
请注意,这有可能:说我将一个公平的硬币扔了900次。我得到的头数在440和455(含)之间的概率是多少?只需找到期望的头数(),然后计算头数的方差(),然后找到正态(或高斯)分布的概率,期望值为,标准偏差为则介于和。亚伯拉罕·德·莫夫(Abraham de Moivre)在18世纪用掷硬币的方式做到了这一点,从而首先表明钟形曲线值得。225 = 15 2 450 15 439.5 455.5
我认为,一旦超出单个变量并考虑线性回归,使用绝对偏差和平方偏差之间的对比就会变得更加清晰。在http://en.wikipedia.org/wiki/Least_absolute_deviations上有一个很好的讨论,特别是“用最小绝对偏差与最小二乘法对比”部分,该链接链接到一些学生练习,网址为http:// www。 .math.wpi.edu / Course_Materials / SAS / lablets / 7.3 / 73_choices.html。
总而言之,最小绝对偏差比一般最小二乘方对异常值的鲁棒性强,但它可能不稳定(即使单个基准面的微小变化也会使拟合线发生较大变化),并且并非总是有唯一的解决方案-可以一系列的拟合线。同样,最小绝对偏差也需要迭代方法,而普通最小二乘法具有简单的封闭形式的解决方案,尽管现在这已经不像在高斯和勒让德时代那样大了。
原因很多。可能主要是因为它可以很好地用作正态分布的参数。
在许多方面,使用标准偏差来概括色散的方法正在得出结论。您可以说SD隐式地假设对称分布,因为它对均值以下距离和均值上方距离的均等对待。SD非常难以解释给非统计学家。有人可能会说,基尼的均值差异具有更广泛的应用范围,并且可以解释得更多。像SD的均值一样,它不需要声明他们选择集中趋势的度量。基尼的平均差是任意两个不同观察值之间的平均绝对差。如果该分布实际上是高斯分布的,则除了健壮和易于解释之外,它的效率正好是SD的0.98。
这取决于您所说的“数据传播”。对我来说,这可能意味着两件事:
对于点1),没有特别的理由使用标准偏差作为传播的量度,除非您具有正态采样分布。在拉普拉斯抽样分布的情况下,度量是更合适的度量。我的猜测是,由于从点2)继承了直觉,因此在这里使用了标准偏差。通常也可能是由于最小二乘建模的成功,标准偏差是适当的度量。也可能是因为对于大多数分布,计算通常比计算更容易。
现在,对于点2),有一个很好的理由将方差/标准偏差用作点差的度量,在一种特殊但非常常见的情况下。您可以在Laplace逼近后验中看到它。使用数据和先验信息,将参数的后验写为:
我已经将用作虚拟变量来表示分母不依赖。如果后验具有一个很好的四舍五入的最大值(即不太接近“边界”),那么我们可以泰勒展开关于其最大值对数概率。如果采用泰勒扩张的前两个条件,我们将得到(使用素数进行微分):θ θ 最大
但是在这里,由于是一个“四舍五入”的最大值,所以我们有:
如果插入这个近似值,我们得到:
但是,请注意,这是一个正态分布,均值等于,方差等于
(始终为正,因为我们有一个取整的最大值)。因此,这意味着在“规则问题”(其中大多数问题)中,方差是确定估计精度的基本量。因此,对于基于大量数据的估计,从理论上讲,标准差是很有意义的-它可以告诉您基本上您需要了解的所有内容。本质上,相同的参数适用于是Hessian矩阵。对角线条目在这里也基本上是方差。
使用最大似然法的频率学家将得出基本相同的结论,因为MLE往往是数据的加权组合,并且对于大样本,使用中心极限定理,并且如果我们采用但是和互换: (看看是否可以猜出我喜欢哪种范例:P)。因此,无论哪种方式,在参数估计中,标准差都是扩展的重要理论度量。
“为什么要平方差”而不是“取绝对值”?为了准确地回答,有文献给出了采用它的原因以及为什么大多数原因不成立的案例。“我们不能简单地采用绝对值...吗?”。我知道文学的答案是肯定的,而且这样做是有利的。
作者戈拉德指出,首先,以前使用正方形是为了简化计算,但是那些原始原因不再成立。第二,戈拉德指出,采用OLS的原因是Fisher认为使用OLS的分析样本的偏差要小于使用绝对差的分析样本的偏差(粗略地说)。因此,在某些理想情况下,OLS似乎会受益。然而,戈拉德继续指出,在现实世界条件下(观测值测量不完善,分布不均匀,在没有样本推断的情况下进行的人口研究)存在一些共识(他声称费舍尔同意),使用平方比绝对差异。
戈拉德(Gorard)对您的问题的回答:“难道我们不能简单地取差的绝对值取其期望值(均值)吗?” 是是的。另一个优势是,使用差异会产生与我们在生活中体验这些想法的方式有关的度量(误差和变异的度量)。戈拉德说,想像一下均匀分配餐馆账单的人,有些人可能会直观地注意到这种方法是不公平的。那里没有人会纠正错误。差异才是重点。
最后,他指出,使用绝对差异,将每个观察均等地对待,而通过对比平方,差异使预测的权重比良好预测的权重差得多,这就像允许某些观察多次包含在研究中一样。总而言之,他的总体主旨是,如今使用正方形的获胜理由并不多,相反,使用绝对差具有优势。
参考文献:
当添加随机变量时,它们的方差会为所有分布相加。方差(以及因此的标准偏差)对于几乎所有分布都是有用的度量,绝不限于高斯(也称为“正态”)分布。这有利于将其用作我们的错误度量。缺乏唯一性是一个存在绝对差异的严重问题,因为经常有无数的等量“拟合”,但是显然“中间一个”是最切合实际的。同样,即使对于当今的计算机,计算效率也很重要。我处理大型数据集,CPU时间很重要。但是,如先前的一些答案所指出的,没有单一的绝对“最佳”残差度量。有时,不同的情况需要采取不同的措施。
自然地,您可以用任何有意义的方式(绝对偏差,分位数等)描述分布的离散。
一个不错的事实是,方差是第二个中心矩,每个分布(如果存在)都由其矩唯一地描述。另一个不错的事实是,该方差在数学上比任何可比较的指标都更易于处理。另一个事实是,方差是通常参数化的正态分布的两个参数之一,并且正态分布仅具有2个非零中心矩,这是这两个正参数。即使对于非正态分布,在正态框架中进行思考也可能会有所帮助。
如我所见,之所以存在标准偏差,是因为在应用程序中经常出现方差的平方根(例如标准化随机变量),因此需要为其命名。
当您考虑线性回归与中位数回归时,可能是另一种可能更直观的方法。
假设我们的模型是。然后,通过最小化期望平方残差找到b 。
相反,如果我们的模型是中位数,那么我们通过最小化绝对残差找到参数估计值。
换句话说,使用绝对误差还是平方误差取决于要对期望值还是对中值建模。
如果分发,例如,显示歪斜异方差,那么在大的差别如何的预期值的斜率过改变的斜率如何对于中值的值。
Koenker和Hallock在分位数回归方面做得很好,其中中位数回归是一个特例:http : //master272.com/finance/QR/QRJEP.pdf。
我的猜测是:大多数人口(分布)倾向于聚集在均值附近。值离平均值越远,它越稀有。为了充分表达值的“偏离”程度,有必要考虑其与平均值的距离以及其(通常来说)出现的稀有性。与具有较小偏差的值相比,将差与均值进行平方即可。对所有方差求平均值后,就可以取平方根了,这将使单位恢复为原始尺寸。
平方会放大较大的偏差。
如果样本的值遍及整个图表,则要使68.2%处于第一个标准偏差之内,则您的标准偏差需要更宽一些。如果您的数据倾向于全部落在均值附近,则σ可能会更严格。
有人说这是为了简化计算。使用平方的正平方根可以解决该问题,从而使参数不会浮动。
因此,如果目标是代数简单,那么它将看起来像这样:
,其产生的结果与。
显然,平方也可能会放大外围错误(doh!)。
sqrt((x-mu)^2)
,因此您的公式具有误导性。另外,仅因为平方具有放大较大偏差的作用,并不意味着这是偏向于MAD的原因。如果有的话,那是中性的,因为我们经常需要像MAD这样更坚固的东西。最后,从数学上讲,方差比MAD更容易处理,这一事实在数学上比您在本文中传达的要深得多。
为什么要对差值求平方而不是取标准偏差的绝对值?
我们将x与平均值的差平方为平方,这是因为与自由度的平方根成正比的欧几里德距离(以人口度量,x的数量)是分散的最佳度量。
0点到5点的距离是多少?
好的,这很简单,因为它是一个单一维度。
点0、0到点3、4的距离如何?
如果我们一次只能输入一维数据(例如在城市街区中),那么我们只需将数字相加即可。(有时称为曼哈顿距离)。
但是一下子进入二维呢?然后(通过我们在高中都学过的毕达哥拉斯定理),我们对每个维度的距离求平方,对平方求和,然后取平方根求出从原点到点的距离。
从0、0、0点到1、2、2的距离如何?
这只是
因为前两个x的距离构成了计算最终x的总距离的支路。
对于超维空间中的正交测量,我们可以继续扩展对每个维度的距离进行平方的规则,将其推广到所谓的欧几里得距离,如下所示:
因此正交平方和就是距离的平方:
是什么使测量与另一个正交(或成直角)?条件是两次测量之间没有关系。我们希望这些度量是独立且独立分布的(iid)。
现在回想一下总体方差的公式(从中我们可以得到标准差):
如果我们已经通过减去平均值将数据居中于0,则可以得到:
因此,我们看到方差仅是平方距离除以自由度数(变量可以自由变化的维度数)。这也是每次测量对的平均贡献。“均方差”也将是一个适当的术语。
然后我们有了标准偏差,它只是方差的平方根:
等效地,距离,除以自由度的平方根:
平均绝对偏差(MAD)是使用曼哈顿距离或与均值之差的绝对值之和得出的色散度量。
同样,假设数据居中(减去均值),则用曼哈顿距离除以测量次数:
该表以更简洁的方式反映了上述信息:
您是否具有“平均绝对偏差约为正态分布数据集标准偏差大小的0.8倍”的参考?我正在运行的模拟表明这是不正确的。
这是标准正态分布中100万个样本的10个模拟:
>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
... array = standard_normal(1_000_000)
... print(numpy.std(array), mean(absolute(array - mean(array))))
...
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422
在计算色散度量时,我们更喜欢平方差,因为我们可以利用欧几里得距离,从而为色散提供了更好的描述统计。当存在更多相对极值时,欧几里得距离占统计数据中的极值,而曼哈顿距离为每个度量值赋予相等的权重。