直观地理解“差异”


81

解释某人方差概念的最干净,最简单的方法是什么?直觉上是什么意思?如果要向他们的孩子解释这一点,那该怎么办?

这是我很难阐明的概念,尤其是在将差异与风险相关时。我在数学上理解它,也可以用这种方式解释它。但是,在解释现实世界现象时,可以这么说,您如何理解方差及其在“现实世界”中的适用性。

假设我们正在使用随机数来模拟对股票的投资(滚动骰子或使用Excel表格都没关系)。通过将随机变量的每个实例与回报中的“某些变化”相关联,我们可以获得“投资回报”。例如。:

滚动1意味着0.8%的变化$ 1的投入,5 1.1%的变化$ 1等。

现在,如果此模拟运行大约50次(或20或100),我们将获得一些价值和最终投资价值。那么,“方差”实际上告诉我们是否要根据上述数据集进行计算?一个“看到”的是什么-如果方差变成1.7654或0.88765或5.2342,这甚至意味着什么?我对这项投资有何看法?我可以得出一些结论-用外行的话来说。

请也随意增加标准偏差的问题!尽管我觉得理解起来“更容易”,但是将有助于使它也“直观地”变得清晰起来,这一点将不胜感激!


3
我们不应该合并,这个问题同一个去年问?
ub

1
@whuber我认为这些应该合并。多次回答相同的问题(即使上下文不同)也会降低答案的平均质量。
罗宾吉拉德

2
我可以合并它,但是我知道如何计算方差,它也可以用于统计数据中。我希望能够向对它一无所知的人清楚地表达这个概念,并且花了很长时间才解决这个问题。意图与SD,恕我直言的问题大相径庭
博士

2
我认为你们中的任何人都无法以Layman会理解的方式很好地回答这一问题。我看到了很多假设,几乎每个答案都以需要解释的结尾。我不是在抱怨,只是想指出这一点。我也不能简单地回答这个问题。也许太难了?

我认为以下任何答案都无法在这里回答问题。按照我的解释,问题更多是关于方差作为一个数字,什么时候被认为是大还是小。例如,下面的最高答案解决了大方差与小方差意味着什么的问题。如果我给您提供一个数据集,您无法合理地对其进行可视化,从而不得不依靠这些数字,那么如何确定方差是大还是小?
user31415 '11

Answers:


70

当介绍偏见和方差的概念时,我可能会使用与我学过的类似“外行人”的类比:飞镖类比。见下文:

在此处输入图片说明

上面的特定图像来自机器学习百科全书,图像中的参考文献是Moore和McCabe的“统计学实践导论”

编辑:

我相信这是一个非常直观的练习:取出一副纸牌(开箱即用),然后将其从大约1英尺的高度放下。请您的孩子拿起卡片并将它们退还给您。然后,不要掉落卡座,而是将其尽可能高地扔掉,然后让卡片掉到地上。请您的孩子拿起卡片并将它们退还给您。

他们在两次试验中所获得的相对乐趣应该给他们直观的变化感:)


1
那么,这意味着什么呢?如果有人看到棋盘上飞镖的统计差异,他们将得出什么结论?从直觉上讲,低/高方差意味着什么?
博士

1
我会说些类似的话:假设我们扔了4支飞镖。随着飞镖位置变化的增加,一次将所有飞镖从板上移出所需的手数也随之增加(注意:此处的说法非常非正式,因为存在许多反例,例如将3支飞镖组合在一起而最后一个飞镖是在距darboard 3英尺的墙上)。

2
您的图表似乎也引起了经典的区分精度和准确性的方式!它只是打我!
博士

2
AAAAAAAAAAAH!好运动!向别人展示低/高方差意味着什么的好方法!与数据点的平均值(平均值)的平均距离:)
博士

2
(+1)用来说明偏差和差异之间差异的飞镖模拟非常出色
steffen 2011年

36

我曾经通过开玩笑的​​方法向外行讲授统计学,但我发现他们学到了很多东西。

对于方差或标准差,以下笑话非常有用:

玩笑

曾经有两个身高4英尺和5英尺的统计学家必须穿过平均深度3英尺的河流。同时,第三位统计人员过来说:“您还等什么?您可以轻松渡河”

我假设外行知道“平均”一词。您也可以问他们同样的问题,在这种情况下他们会过河吗?

他们缺少什么来决定“在这种情况下该做什么”的“差异”?

这完全取决于您的演讲技巧。但是,笑话对想了解统计信息的外行很有帮助。希望对您有所帮助!


1
也许我不擅长用统计学的笑话(我用别人虽然:)相当不错。但是我不理解“在这种情况下该做什么”是什么意思?如果他们对方差有所了解,应该怎么做?应该如何解释?
博士

6
@Nupul:实际上,“在这种情况下该做什么”意味着他们是否渡河?如果知道方差(或SD),则可以轻松确定。假设方差为0.25(SD = 0.5),则他们可以安全渡河,因为间隔范围(不要将此与置信区间(CI)混淆)为3 + 0.5或3-0.5,且其高度为4和5。是4,那么最好不要过河。顺便说一句,只要在这里享受笑话stats.stackexchange.com/questions/1337/statistics-jokes
Biostat 2011年

完善!我知道了!:)这很有意义。实际上,结合各种人的答案可以帮助我更好地理解……
博士

或者,如果鲨鱼没有“平均”地吞噬人,那么如果它们非常喜怒无常(高度变异的行为),那就太不舒服了。在河流类比中,关键在于您是否将采取措施使自己过头。
迪恩·雷德克里夫

12

我将关注标准偏差而不是方差;方差尺度错误。

正如平均值是一个典型值一样,SD也是与平均值的典型(绝对)差异。这与平均分配分布并取其平均值无异。


1
同意 假设我们专注于SD。我的问题仍然是关于如何使某人直观地理解SD,而不是“高SD似乎不好 ” ......我该如何向外行人解释SD,因为这是方差的平方根!!!
博士

@Nupul-阅读第二段:我将SD解释为与平均值的典型差异。
卡尔

4
“与平均分配分布并取其平均值无异。” 与您的文章其余内容一样,该评论似乎描述的是平均绝对偏差,而不是标准偏差。
Macro

3
@Macro-是的;在尝试解释SD时,我将通过MAD对其进行近似。我认为最好不要对均方根和平均绝对值进行争论。
卡尔

7

我不同意许多提倡人们纯粹将方差视为传播的答案。正如聪明人(Nassim Taleb)所指出的那样,当人们认为方差是传播时,他们只是假设它是MAD。

方差是对成员距均值的距离的描述,并且它以相同的距离判断每个观察值的重要性。这意味着更重要的是判断远处的观测。因此正方形。

我认为连续均匀变量的方差最容易描绘。每个观察都可以画一个正方形。堆叠这些正方形会创建一个金字塔。将金字塔切成两半,使一半的重量在一侧,另一半在另一侧。剪切的面是方差。


2
我不知道为什么这个答案没有得到更多支持。第二段中的观点对于理解方差并将其与MAD进行区分至关重要,正确地指出了MAD是人们在被告知“价差度量”时所直观想到的。理解一个点距均值的权重不会线性增长(即使他们在数学上不了解平方)的想法也并非是外行。
杰里米·拉德克里夫

3
“ MAD” = en.wikipedia.org/wiki/Median_absolute_deviation,适合那些想知道的人。我认为这样的首字母缩略词不应被视为对此类问题的知识。

5

也许这会有所帮助。我预先道歉,作为一个完全的业余爱好者,我可能会弄错这个错误。

想象一下,您要求1000个人正确猜测一个装有果冻豆的罐子里有多少豆子。现在想象一下,您不一定对知道正确的答案感兴趣(可能有用),但是您希望对人们如何估计答案有更好的了解。

差异可以向外行人解释为不同答案(从最高到最低)的传播。您可以继续添加,如果有足够多的人提出质疑,那么正确的答案应该在给出的“猜测”蔓延中间。

我现在请一些更受尊敬的同事进行裁决


5

我当时正坐在那里,试图弄清楚方差,而最终让我意识到这一点的是以图形方式查看它。

假设您绘制了一条包含四个点-7,-1、1和7的数字线。现在绘制一个假想的Y轴,沿Y方向具有相同的四个点,并使用XY对绘制每个对的正方形点。您将得到四个单独的正方形,分别由49、1、1和49个较小的正方形组成。它们中的每一个都贡献了平方的总和,该平方和本身可以表示为一个较大的10 x 10平方,总体上代表100个较小的平方。

方差是促成该更大平方的平均平方的大小。49 +1 + 49 +1 = 100,100/4 =25。所以25是方差。标准偏差是该平均正方形的边之一的长度,即5。

显然,这种类比并未涵盖方差概念的全部细微差别。有很多事情需要解释,例如为什么我们经常使用分母n-1来估计总体参数,而不是简单地使用n。但是,作为将剩余的对方差的详细理解固定下来的基本概念,只需将其画出即可,以至于我看到它对您有很大帮助。当我们说方差是与均值的平均平方偏差时,它有助于理解我们的意思。它还有助于理解SD与该平均值之间的关系。


1
欢迎使用交叉验证!我喜欢这种方法,但强调点在零附近“散布”(即均值为零),而您正在测量相对于位于此处的“原子”的散布可能更有用。(+1),我期待着您的更多答复!
马特·克劳斯

4

有很多关于标准差和方差的实践教学外行。

TL; DR; 这有点像平均距离的平均值。(在这种简洁的版本中,这有点令人困惑和误解。请阅读全文)

我认为外行了解平均水平。我讲了了解SD和估计错误的重要性(请参阅下面的PS)。然后,我保证不会使用任何高级数学或神圣的统计知识-只是一种枯燥的推理和纯逻辑。

  1. 问题。可以说我们有一个温度计(我根据距离听觉的位置选择测量设备)。

    我们在相同的温度和温度计下进行了N次测量,结果显示出类似36.5、35.9、37.0、36.6,...(参见图片)的信息。我们知道真实的温度是相同的,但是每次测量时温度计对我们来说都是一点点。

    我们如何估计这个小败类对我们有多大?

    我们可以计算平均值(请参见下图的红线)。我们可以相信吗?即使进行平均后,它是否也满足我们的需求?

    温度计值及其平均值

  2. 最简单的方法。我们可以取最远的点,计算出它与平均值之间的距离(红线),然后说,这就是温度计对我们的影响,因为这是我们看到的最大误差。一个人可能会猜测,这不是最佳估计。如果看一下图片,大多数点都在平均值附近,我们如何仅凭一个点来决定?实际上,人们可以练习编号原因,因为这样的估算是粗糙的并且通常是不好的。

  3. 方差。然后...让所有距离都算出来然后计算平均距离

    X一世-X¯X¯X一世

    然后,我们可以想象平均距离的公式是将所有内容相加并除以N:

    X一世-X¯ñ

    但有一个问题。我们可以很容易地看到,例如。36.4和36.8与36.6的距离相同 但是,如果将这些值放在上面的公式中,则会得到-0.2和+0.2,它们的总和等于0,这不是我们想要的。

    如何摆脱标志?(此时,外行通常会说“取绝对值”,并建议“取绝对值有点人为,这是另一种方式?”)。我们可以平方值!然后公式变为:

    X一世-X¯2ñ

    该公式在统计中称为“差异”。与仅获取最大距离相比,估计我们的温度计(或其他)值的分布范围更合适。

  4. °C2°F2

    X一世-X¯2ñ

    σ

在这一点上,外行人很清楚,我们如何到达这里以及标准差/方差是如何工作的。从这一点上来说,我通常会遵循68–95–99.7的规则,还描述有关采样和总体,标准误差与标准偏差等的描述。

PS知道SD谈话示例的重要性:

假设您有一些测量设备,其成本为1 000 000 $。它给出了答案:42.您认为有人为42 支付了1 000 000 美元吗?hoo!一个人为答案的精确度支付了100 000。因为Value-在不知道其错误的情况下不付出任何代价。您为错误支付费用,而不是价值。这是一个很好的生活例子。

在平常的生活中,大多数时候我们使用尺子来测量距离。标尺可为您提供大约1毫米的精度(如果您不在美国)。如果您必须超过毫米并以0.1mm的精度进行测量该怎么办?-您可能会使用卡尺。现在,很容易检查,最便宜的标尺(但仍具有毫米精度)的价格为美分,而好的卡尺的价格为十分之一。价格的2个数量级为1个数量级的精度。这是您为错误支付多少费用的非常平常的做法。


2

我认为在解释方差和标准差时要使用的关键词是“价差量度”。用最基本的语言来说,方差和标准差告诉我们数据的分散程度。为了更准确一点,尽管它们仍然针对外行,但它们告诉我们数据在均值周围的分布情况。顺便说一句,请注意,平均值是“位置的度量”。总结一下对外行的解释,应该强调的是,标准差与我们正在处理的数据以相同的单位表示,因此,我们采用了方差的平方根。即两者是链接的。

我认为简短的解释会成功。无论如何,它可能有点类似于教科书的介绍性解释。


0

我将分布的方差视为惯性矩,其轴线以分布的平均值和每个质量为1。这种直觉将使抽象概念具体化。

第一个矩是分布的平均值,第二个矩是方差。

参考:概率论第8版


-2

我将其称为与总体平均值的平均正差。


1
大号2
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.