用Layman的术语解释均值,中位数,众数


10

您将如何解释数字列表的均值,中位数和众数的概念,以及为什么它们对仅具有基本算术技能的人很重要?更不用说偏度,CLT,集中趋势,其统计属性等了。

我已经向某人解释说,这只是“汇总”数字列表的一种快速而肮脏的方法。但是回头看,这很难说明。

有什么想法或现实世界的例子吗?


它们是不同领域中的“中心趋势”,也就是“最可能的结果”。强度,顺序和频率,尤其是。现实世界中也有变化-因此,诸如标准差,四分位数(或分位数)范围和模态范围之类的东西也非常有用,因为它们表示“变化趋势”或“结果中的典型变化”。
EngrStudent

您可以举个例子,有一台机器随机生成数字。您收集列表中生成的所有数字。您现在想将其呈现给您的朋友,而无需引用列表中的每个数字。因此,您寻找可以帮助您描述它的措施。平均值/中位数/众数是三种类似的度量,可以深入了解机器的基本属性。
凯文·佩

@KevinPei但是在这种情况下,“平均”是什么意思?在一个人为的,独立的示例中,均值/中位数/众数没有太多解释。
Concerned_Citizen

1
求平均值是一个问题,即在(相同体重的)孩子们以任意数量且在梁上的任意位置登上跷跷板之后,找到平衡跷跷板的枢轴点。找到中位数是相同的任务,只说孩子们紧紧地聚集在“此”侧或“该”侧的两个位置上。
ttnphns

没有分布的概念,您将无法解释这一点。仅具有基本的算术技能,您就可以绘制图片。
阿克萨卡尔州

Answers:


6

感谢您提出这个关于均值,中位数和众数基本统计概念的简单而深刻的问题。有一些很棒的方法/演示可用来解释和掌握对这些概念的直观理解而非算术理解,但不幸的是,它们并不广为人知(或据我所知在学校教过)。

意思:

1.平衡点:指支点

理解均值概念的最佳方法是将其视为均匀棒上的平衡点。想象一系列数据点,例如{1,1,1,3,3,6,7,10}。如果将这些点中的每一个都标记在一个均匀的杆上,并且在每个点上放置相等的重量(如下所示),则必须将支点放置在数据的平均值上,以使杆平衡。

在此处输入图片说明

这种视觉演示还可以进行算术解释。这样做的算术原理是,为了使支点保持平衡,与平均值的总负偏差(在支点的左侧)必须等于与平均值的总正偏差(在右侧)。因此,均值充当分布中的平衡点

这种视觉效果可以立即理解平均值,因为它与数据点的分布有关。从该演示中很容易看出,平均值的其他属性是,平均值始终位于分布的最小值和最大值之间。此外,离群值的影响也很容易理解-离群值的存在会移动平衡点,从而影响均值。

2.重新分配(公平份额)价值

理解均值的另一种有趣方式是将其视为重新分配值。这种解释的确需要对均值计算背后的算法有所了解,但是它利用了拟人化的质量(即社会主义再分配概念)来直观地掌握均值的概念。

平均值的计算包括对分布中的所有值(一组值)求和,然后将总和除以分布中数据点的数量。

X¯=一世=1个ñX一世/ñ

理解此计算原理的一种方法是将每个数据点都视为苹果(或其他可替代物品)。使用与之前相同的示例,我们的样本中有8个人:{1,1,1,3,3,6,7,10}。第一个人有一个苹果,第二个人有一个苹果,依此类推。现在,如果要重新分配苹果的数量,以使它对所有人“公平”,则可以使用分配的平均值进行此操作。换句话说,您可以给每个人四个苹果(即平均值),以使分配公平/相等。该演示为上述公式提供了直观的解释:将分布的总和除以数据点的数量等效于将整个分布平均地划分为所有数据点。

3.视觉助记符

以下这些视觉助记符以独特的方式提供了均值的解释:

在此处输入图片说明

这是一个记忆的练级值的平均值的解释。A的横线的高度是四个字母的高度的平均值。

在此处输入图片说明

这是平均值的平衡点解释的另一种记忆。支点的位置大约是M,E和N的两倍的平均值。

中位数

一旦理解了将均值解释为杆上平衡点的解释,就可以通过以下相同概念的扩展来证明中间值:项链上平衡点

用细绳代替杆,但要保留数据标记和重量。然后在末端,连接一根比第一根更长的第二根绳子,形成一个环圈(像项链一样),然后将环圈挂在润滑良好的皮带轮上。

在此处输入图片说明

最初,假设权重是不同的。当相同数量的重物放在两侧时,皮带轮和皮带环保持平衡。换句话说,当中位数为最低点时,循环“平衡”。

请注意,如果其中一个权重在循环中向上滑动,从而形成一个异常值,则循环不会移动。这从物理上证明了中值不受异常值影响的原理。

模式

模式可能是最容易理解的概念,因为它涉及最基本的数学运算:计数。它是等于最频繁出现的数据点引出的首字母缩写的事实:“ 中号 OST-经常Ø ccurring d ATA ê字元素”。

该模式也可以考虑为一组中最典型的值。(尽管,对“典型”的更深入的理解会产生代表性或平均值。但是,将“典型”等同于基于“典型”一词的字面含义的模式是适当的。)


资料来源:

  • 中位数是一个平衡点-林奇,《大学数学杂志》(2009年)
  • 使统计数据令人难忘:新的记忆和动机-较少,统计教育,JSM(2011)
  • 关于助记符在统计教学中的使用-较小的模型辅助统计与应用,6(2),151-160(2011)
  • 这是什么意思?– Watier,Lamontagne和Chartier,《统计教育杂志》,第19卷,第2期(2011年)
  • 典型?儿童和教师关于平均的观点– Russell和Mokros,《 ICOTS 3》(1990年)总体参考:http://www.amstat.org/publications/jse/v22n3/lesser.pdf

今天刚刚碰到这篇文章,就可以进一步了解这一点:Priceonomics.com/how-the-average-triumphed-over-the-median
Vishal

1
一位匿名用户还建议了以下总体参考:amstat.org/publications/jse/v22n3/lesser.pdf
gung-Reinstate Monica

3

我想知道您的标准是否可以实现,因为您似乎希望用最少的材料获得最大的效果和解释力。但是一个简单的例子

1 1 2 2 2 3 3 4 5 6 15

允许立即计算模式(2),中位数(3)和平均值(44/11)= 4,因此表明它们可以不同。

然后,您可以解释一下,想法最常见的值,中间和平均价值是不同的。并介绍并发症

  1. 更改值以显示模式可能不明确

  2. 使用一个具有偶数个值的示例来解释计算中位数的约定

  3. 改变尾巴中的值以强调均值发生什么,以及为什么和为什么不这样做是可取的。

  4. 使用更简单的示例,其中两个,三个均值,中位数模式重合。

我没有在教学中提到中心趋势,只是说这是各种文学作品中的术语。我更喜欢谈论水平及其量化方法。相反,除非人们对偏斜的感觉比对对称性更常见,否则我认为不可能进行任何认真的数据分析。


是的,调整值将更改汇总统计信息,但“均值”本身仍是什么意思?
Concerned_Citizen

1
计算理解
shadowtalker

1
什么是红色?我们并不总是需要知道定义才能使用想法。正确理解红色可能需要物理学,生理学和心理学,但我从不需要它。我对平均值的工作原理了解很多,但从一个基本层面上讲,其定义只是公式。
尼克·考克斯

1
@NickCox非常公平,非常真实。但是我在大学的经历仍然是最近的,而且我还记得太多的问题,我盲目地计算出答案却不理解自己的计算或
做事的

1
@ssdecontrol永远不会停止完全发生……
Nick Cox

3

这就是我向他们解释的方式:

(算术)均值是指将整个数据集考虑在内并位于“中间”某处的点。让他们想到空间中的点云或斑点:平均值是该点云的质心。

是具有“在各方面的点数相同”(其中显然是一个“面”的概念并不2+尺寸定义良好的)点。这代表了另一种“中间”,实际上在某种意义上更直观。考虑到空间中的同一斑点,很明显,如果斑点偏斜,则均值将移动。但是,这种不平衡性可以通过以下两种方法之一来实现:在一个区域中添加更多的点,或者在该区域中增加点的离散度。如果在不增加点数的情况下增加一个区域中点的离散度,那么中位数“在所有面”仍然具有相同的点数,并且不会与均值相称地移动。

ÿ=1个2345ÿ=1个23499意思ÿ=中位数ÿ意思ÿ>中位数ÿ。但是我建议首先从几何/视觉“基于斑点”的解释开始:以我的经验,从挥舞图形演示开始比较容易,然后转到具体的玩具示例。我发现大多数人(包括我本人)并非天生就是以数字为导向的,数字解释入手是造成混乱的秘诀。您随时可以回去再讲一些更精确的定义。

如果从该Blob中随机采样点,则该模式是最有可能出现的点(认识到这是对连续数据的伪造)。可以但不一定位于平均值或中位数附近。

解释完这些概念之后,可以进入更具统计意义的演示了:

演示

实线是平均值。虚线是中位数。虚线是模式。平均值表示数据点沿x轴的位置,而中位数仅反映了两侧的数据点数。该模式只是最大概率的点,不同于均值和中位数。

R代码:

set.seed(47730)
y <- rgamma(100, 2, 2)
d <- density(y)
plot(d)
rug(y)
abline(v = mean(y), lty = 1)
abline(v = median(y), lty = 2)
abline(v = d$x[which.max(d$y)], lty = 3)

很好的解释,但这实际上比“基本算术技能”还需要更多的东西:几何思维,基本力学,随机抽样,概率论(包括密度函数)在这里都被引用。这是一条评论,并不是要引起批评,因为我认为这个问题是一个艰巨的任务。
尼克·考克斯

@NickCox肯定有好处。但是,现在我正在考虑它,所以我坚持使用它们,因为它们反过来都可以不用数学来解释(例如,ttnphns在主要问题注释中的“跷跷板”解释),或者它们已经很多人在某种程度上直观地理解了。密度有点可触及,但我认为您永远不需要去那里
Shadowtalker

(@ttnphns:如果您想称重,请为您加标签。它不会让我在一条评论中为您加标签)
shadowtalker

密度不是那么深奥。大多数人应该从物理上回忆密度,从地理上回忆一下人口密度,或者只是常识。
尼克·考克斯

@NickCox我认为那是您指的是基本力学的意思。除了密度演示之外,我也没有看到这里需要随机抽样的情况。如果有的话,我想关键是让非技术学生适应点云的想法。也许以此聊天?
Shadowtalker,2016年

2

均值 ”,“ 中位数 ”和“ 众数 ”是不同领域中的“集中趋势”,也就是“最可能的结果”。它们都是不同“游戏”中的“最佳选择”。

概率与统计是一个部分由赌徒(linklink)建立的字段。当您参加赛马或扑克桌时,您想了解一些有助于您获胜的科学。他们也这样做,并撰写了相关内容,因此您不必自己发明它。

在赛马比赛中,您想选择一名获胜者。您没有未来的信息,但是您确实知道一些过去的信息。您知道过去几场比赛中每匹马跑得有多快。如果您想估算他们在下一场比赛中可能跑多快,您可以计算并比较平均值,也就是平均比赛时间。

另一个主要趋势是“中位数”-这是排序列表的中心。如果我在您的比赛时间清单上打错了错字,并且值比所有其他长1000倍,该怎么办?这会弄乱您的估计。您可能不会赌赢马。您如何解决?您可以手动寻找该值,也可以使用“中位数”。

如果您正在玩纸牌(例如“ 二十一点 ”),并且试图根据先前的纸牌确定是否需要另一张纸牌,该怎么办。您要查找的卡不是3.14,因为卡号是整数值。当“平均值”或“中位数”没有意义时,您如何确定最佳选择?在这种情况下,您要下注“模式”,即最有可能从发牌手中抽出的牌。

在所有这三种情况下,集中趋势只是“最佳选择”的另一种表达方式。

如果您不仅要考虑投注的主要趋势,也就是说,如果您要投注,以便能够在最大赢利的同时减少损失的影响,那么您必须考虑“变化趋势”。诸如标准差,分位数范围或替代模式及其频率之类的东西都用于最小化最大损失,同时最大化可能的获利。


0

我认为在考虑多个均值,中位数和众数时解释这个概念很有用。这些值本身并不是凭空存在的。

例如,这就是我要解释的意思。

假设您有2箱西瓜(1箱和2箱)。它是密封的,所以您看不到里面的西瓜,因此您不知道它们的大小。但是,您确实知道每个板条箱中的西瓜总重量,并且每个箱中包含相同数量的西瓜。由此,您可以计算每个板条箱西瓜(M1和M2)的平均重量。

现在您有了两个不同的平均值M1和M2,您可以对各个内容进行粗略的比较。如果M1> M2,则从板条箱1中随机选择的西瓜可能比从板条箱2中选取的西瓜重。

当然,我希望就此观点发表评论。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.