为什么色散测度比中心测度更直观?


11

在人类的理解中似乎有些东西在直觉上理解差异的概念方面造成了困难。从狭义上讲,答案是立竿见影的:平方使我们脱离了反思的理解。但是,仅仅是方差带来了问题,还是整个数据扩散的想法?我们寻求避难范围,或仅说明最小值和最大值,但我们只是避免真正的困难吗?在平均值(众数或中位数)中,我们找到了中心,摘要...是一种简化;差异分散了周围的东西并使他们不舒服。原始人肯定会通过三角剖分来祈祷,从而在狩猎动物中利用中庸之道,但是我认为,很晚以后我们才感到需要量化事物的传播。实际上,方差一词最早是在1918年由罗纳德·费舍尔(Ronald Fisher)在论文“孟德尔继承假设中的亲戚之间的相关性”中引入的

多数关注此消息的人都会听过拉里·萨默斯Larry Summers)关于按性别划分的数学才能的不幸演讲,这可能与他离开哈佛有关。简而言之,他建议男性与女性的数学能力分布差异更大,即使男性和女性的平均能力相同。无论适当性或政治含义如何,这似乎在科学文献中得到了证实

更重要的是,也许对气候变化等问题的理解(请原谅我提出可能导致完全不提倡讨论的话题)可以通过提高人们对方差观念的了解而得到帮助。

如本文所示,当我们尝试掌握协方差时,这个问题变得更加复杂,这是@whuber 在此处给出的出色而丰富多彩的答案。

它可能是很有诱惑力驳回这个问题太一般,但很显然,我们正在间接地讨论这个问题,因为在这个岗位,其中数学是微不足道的,但这个概念被继续难以捉摸,belying更舒适的接受范围为反对更细微的思想差异

费舍尔给EBFord的一封信中,谈到了他对孟德尔实验的怀疑,我们读到:“现在,当数据被伪造时,我很清楚人们普遍低估了广泛的机会偏差的频率,因此趋势总是使他们与期望太吻合……(在孟德尔的数据中)偏差很小。” 伟大的RA费舍尔非常热衷于怀疑小样本中的微小差异,他写道:“除其他方面外,孟德尔还是被一位非常了解所期望的助手欺骗的可能性。”

如今,这种对低估或误解传播的偏见很可能继续存在。如果是这样,是否有任何解释说明为什么我们对中心概念比对分散更满意?我们可以做些什么来使这个想法内化吗?

eiπ+1=0E=mc2

纳西姆·塔莱布(Nassim Taleb)将他对方差的理解有(实际上是贝诺伊特·曼德布罗特的理解)运用于危机发生时发了大财,并试图通过以下句子使大众理解这一概念:“方差是认识论的,这是关于缺乏对中庸之道的了解的一种衡量方法。”-是的,这口子还有更多的背景...值得称赞的是,他还通过“ 感恩节土耳其”的想法简化了这一过程。有人可能会说,投资的关键是了解方差(和协方差)。

那么,为什么这么滑,以及如何补救呢?没有公式……仅仅是多年处理不确定性的直觉……我不知道答案,但这不是数学上的(有必要):例如,我想知道峰度的想法是否会干扰方差。在下图中,我们有两个直方图重叠,几乎没有变化。但是,我的膝盖跳动反应是,尾巴最长,峰顶最高(峰度更高)的那一点更“散开”:


2
我认为差异很难理解,主要是因为它是平方的。人们似乎对平均绝对偏差没有太大的困难。(例如,我通常会采用这种方法来达到标准偏差)
龚–恢复莫妮卡

很难了解一个人学到了什么,但是我不确定标题的前提是否正确。例如,在某些方面,包括范围在内的差异似乎比诸如平均值或中位数之类的汇总直观。帐户不同;但是,尽管平均数出现在古典数学中,但大约在17世纪,它才用于缓慢地汇总数据。
尼克·考克斯

1
希望对此的答案不会被转移到不一定与该问题相关的细节上-这个问题更多地是关于方差本身(关于平方的讨论可能是相关的),还是更普遍的可变性概念(分散,扩散,变异-不会)?[我也想知道我们能在多大程度上真正概括其他人的相对直觉感]
Glen_b -Reinstate Monica 2015年

后者。我应该说清楚。总体上不确定这个问题。随时关闭它。
安东尼·帕雷拉达

@Antoni我为什么要关闭它?两种形式都是一个好问题;只是答案会有所不同。
Glen_b-恢复莫妮卡2015年

Answers:


9

我同意您的看法,即差异稍微不太直观。更重要的是,方差作为一种度量已针对某些分布进行了优化,而对非对称分布的价值则较小。在我看来,均值与均值的绝对差并不太直观,因为它要求选择均值作为集中趋势的度量。我喜欢基尼的均值差---比所有成对的观测值均值绝对差。它直观,健壮和高效。在效率方面,如果数据来自高斯分布,则基尼的平均差和应用了适当的换算系数后的效率为样本标准偏差的0.98。一旦对数据进行排序,就有一个有效的计算公式可以计算出基尼的均值差。R代码如下。

w <- 4 * ((1:n) - (n - 1)/2)/n/(n - 1)
sum(w * sort(x - mean(x)))

它会过分强调分散性吗?我是你的代码打在这里
安东尼Parellada

1
这是分散的有效度量。如果您喜欢它的定义,它并不过分。
Frank Harrell,2015年

绝对。我将您的帖子作为学习的机会,而我的评论是表达兴趣的方式。我只需要阅读更多有关它的内容。谢谢!
Antoni Parellada 2015年

1
仅当向量x已经排序时。
Frank Harrell 2015年

4

这是我的一些想法。它并没有解决您可以从哪个角度看待您的问题,实际上,有很多问题并没有解决(问题确实有些宽泛)。

为什么外行人很难理解方差的数学计算?

本质上,差异是事物分布的程度。这很容易理解,但是它的计算方式对于外行而言似乎违反直觉。

问题在于,将与均值之差平方(然后取平均值),然后平方根求标准偏差。我们知道为什么需要这种方法-平方是使值正,然后将它们平方根以得到原始单位。但是,外行人士可能会对数字为何平方和平方根感到困惑。看起来它会自行取消(不会),因此显得毫无意义/奇怪。

对他们来说,更直观的方法是通过简单地对均值和每个点之间的绝对差(称为“均值绝对偏差”)求平均来找到分布。此方法不需要平方和平方根,因此更加直观。

请注意,仅仅因为“平均绝对偏差”更为直接,并不意味着它“更好”。一个世纪以来,关于使用平方值还是绝对值的争论一直在进行,涉及许多杰出的统计学家,因此像我这样的随便的人不能只出现在这里并说一个更好。(对方差求平均当然更受欢迎)

简而言之:对于那些发现平均绝对差更简单的非专业人员来说,求方差的平方似乎不太直观。但是,我认为人们对理解传播本身的想法没有任何问题


3
+1指出平方的效果。但是我认为这个问题超出了衡量扩散的实际数学结构。它处于更加激进的脑干水平-离开中心不自然。中心点是。
Antoni Parellada 2015年

知道了 我不确定这是关于“价差”还是寻找价差的特定数学方法。恐怕我不能为您提供帮助-就我个人而言,我认为人们在理解传播概念方面没有太大的问题...
Yang Li

我做。在理解不确定性的程度方面,我有很多问题,这在很大程度上是差异的直接结果。我只是不知道为什么。
Antoni Parellada 2015年

3

这是我对您的问题的看法。

我将首先对上述答案提出疑问,然后尝试提出自己的观点。

对先前假设的问题:

真的是平方使离散度量(例如平方均值偏差)难以理解吗?我同意平方会带来数学上的复杂性,从而使难度变得更大,但如果答案仅是平方,那么平均绝对偏差将很容易理解和测量中心度。

意见:

我认为,使我们难以理解离散度量的原因是,离散本身就是一个二维信息。试图以一种度量总结二维信息意味着信息的部分丢失,从而导致混乱。

例:

下面是一个可以帮助解释上述概念的示例。让我们获得2组不同的数据:

  1. 遵循高斯分布
  2. 遵循未知且不对称的分布

我们还假设标准偏差的色散为1.0。

我的头脑倾向于比集合2更清楚地解释集合1的分散。在这种特定情况下,解释了我更好理解的原因,因为事先知道分布的二维形状可以让我了解分布的度量。围绕集中高斯均值的概率项。换句话说,高斯分布为我提供了二维提示,我需要更好地将其从色散度量中转换出来。

结论:

总而言之,没有一种切实可行的方法可以在一个偏差度量中捕获二维信息中的所有信息。我通常在不直接查看分布本身的情况下理解离散的方法是结合许多解释某个分布的度量。他们将为我的头脑建立背景,以便更好地掌握色散度量本身。如果我可以利用图表,那么箱形图对于可视化确实很有用。

精彩的讨论使我对这个问题思考了很多。我很高兴听到您的意见。


1
经过深思熟虑的回应+1。我真的没有什么要补充的,除了我认为可能还有其他原因值得研究。
杨丽

1

我认为一个简单的原因是人们对可变性(无论是方差,标准差,MAD还是其他)的适应度更高,除非您了解中心思想,否则您无法真正理解可变性。这是因为所有可变性的度量都是基于距中心的距离来度量的。

平均值和中位数之类的概念是并行的概念,您可以首先学习一个,而有些人可能对一个更好地理解,而其他人则可以更好地理解另一个。但是,传播是从中心(对于中心的某种定义)开始测量的,因此首先不能真正理解它。


+1很有道理-这是一个次要概念……
安东尼·帕雷拉达

@格雷格·斯诺(Greg Snow):只是不正确;看到基尼(Gini)与弗兰克·哈雷尔斯(Frank Harrells)的答案的均值差异,即不能确保偏离中心。
kjetil b halvorsen '16
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.