您将如何解释数字列表的均值,中位数和众数的概念,以及为什么它们对仅具有基本算术技能的人很重要?更不用说偏度,CLT,集中趋势,其统计属性等了。
我已经向某人解释说,这只是“汇总”数字列表的一种快速而肮脏的方法。但是回头看,这很难说明。
有什么想法或现实世界的例子吗?
您将如何解释数字列表的均值,中位数和众数的概念,以及为什么它们对仅具有基本算术技能的人很重要?更不用说偏度,CLT,集中趋势,其统计属性等了。
我已经向某人解释说,这只是“汇总”数字列表的一种快速而肮脏的方法。但是回头看,这很难说明。
有什么想法或现实世界的例子吗?
Answers:
感谢您提出这个关于均值,中位数和众数基本统计概念的简单而深刻的问题。有一些很棒的方法/演示可用来解释和掌握对这些概念的直观理解而非算术理解,但不幸的是,它们并不广为人知(或据我所知在学校教过)。
1.平衡点:指支点
理解均值概念的最佳方法是将其视为均匀棒上的平衡点。想象一系列数据点,例如{1,1,1,3,3,6,7,10}。如果将这些点中的每一个都标记在一个均匀的杆上,并且在每个点上放置相等的重量(如下所示),则必须将支点放置在数据的平均值上,以使杆平衡。
这种视觉演示还可以进行算术解释。这样做的算术原理是,为了使支点保持平衡,与平均值的总负偏差(在支点的左侧)必须等于与平均值的总正偏差(在右侧)。因此,均值充当分布中的平衡点。
这种视觉效果可以立即理解平均值,因为它与数据点的分布有关。从该演示中很容易看出,平均值的其他属性是,平均值始终位于分布的最小值和最大值之间。此外,离群值的影响也很容易理解-离群值的存在会移动平衡点,从而影响均值。
2.重新分配(公平份额)价值
理解均值的另一种有趣方式是将其视为重新分配值。这种解释的确需要对均值计算背后的算法有所了解,但是它利用了拟人化的质量(即社会主义再分配概念)来直观地掌握均值的概念。
平均值的计算包括对分布中的所有值(一组值)求和,然后将总和除以分布中数据点的数量。
理解此计算原理的一种方法是将每个数据点都视为苹果(或其他可替代物品)。使用与之前相同的示例,我们的样本中有8个人:{1,1,1,3,3,6,7,10}。第一个人有一个苹果,第二个人有一个苹果,依此类推。现在,如果要重新分配苹果的数量,以使它对所有人“公平”,则可以使用分配的平均值进行此操作。换句话说,您可以给每个人四个苹果(即平均值),以使分配公平/相等。该演示为上述公式提供了直观的解释:将分布的总和除以数据点的数量等效于将整个分布平均地划分为所有数据点。
3.视觉助记符
以下这些视觉助记符以独特的方式提供了均值的解释:
这是一个记忆的练级值的平均值的解释。A的横线的高度是四个字母的高度的平均值。
这是平均值的平衡点解释的另一种记忆。支点的位置大约是M,E和N的两倍的平均值。
一旦理解了将均值解释为杆上的平衡点的解释,就可以通过以下相同概念的扩展来证明中间值:项链上的平衡点。
用细绳代替杆,但要保留数据标记和重量。然后在末端,连接一根比第一根更长的第二根绳子,形成一个环圈(像项链一样),然后将环圈挂在润滑良好的皮带轮上。
最初,假设权重是不同的。当相同数量的重物放在两侧时,皮带轮和皮带环保持平衡。换句话说,当中位数为最低点时,循环“平衡”。
请注意,如果其中一个权重在循环中向上滑动,从而形成一个异常值,则循环不会移动。这从物理上证明了中值不受异常值影响的原理。
模式可能是最容易理解的概念,因为它涉及最基本的数学运算:计数。它是等于最频繁出现的数据点引出的首字母缩写的事实:“ 中号 OST-经常Ø ccurring d ATA ê字元素”。
该模式也可以考虑为一组中最典型的值。(尽管,对“典型”的更深入的理解会产生代表性或平均值。但是,将“典型”等同于基于“典型”一词的字面含义的模式是适当的。)
资料来源:
我想知道您的标准是否可以实现,因为您似乎希望用最少的材料获得最大的效果和解释力。但是一个简单的例子
1 1 2 2 2 3 3 4 5 6 15
允许立即计算模式(2),中位数(3)和平均值(44/11)= 4,因此表明它们可以不同。
然后,您可以解释一下,想法最常见的值,中间和平均价值是不同的。并介绍并发症
更改值以显示模式可能不明确
使用一个具有偶数个值的示例来解释计算中位数的约定
改变尾巴中的值以强调均值发生什么,以及为什么和为什么不这样做是可取的。
使用更简单的示例,其中两个,三个均值,中位数模式重合。
我没有在教学中提到中心趋势,只是说这是各种文学作品中的术语。我更喜欢谈论水平及其量化方法。相反,除非人们对偏斜的感觉比对对称性更常见,否则我认为不可能进行任何认真的数据分析。
这就是我向他们解释的方式:
(算术)均值是指将整个数据集考虑在内并位于“中间”某处的点。让他们想到空间中的点云或斑点:平均值是该点云的质心。
该位是具有“在各方面的点数相同”(其中显然是一个“面”的概念并不2+尺寸定义良好的)点。这代表了另一种“中间”,实际上在某种意义上更直观。考虑到空间中的同一斑点,很明显,如果斑点偏斜,则均值将移动。但是,这种不平衡性可以通过以下两种方法之一来实现:在一个区域中添加更多的点,或者在该区域中增加点的离散度。如果在不增加点数的情况下增加一个区域中点的离散度,那么中位数“在所有面”仍然具有相同的点数,并且不会与均值相称地移动。
。但是我建议首先从几何/视觉“基于斑点”的解释开始:以我的经验,从挥舞图形演示开始比较容易,然后转到具体的玩具示例。我发现大多数人(包括我本人)并非天生就是以数字为导向的,从数字解释入手是造成混乱的秘诀。您随时可以回去再讲一些更精确的定义。
如果从该Blob中随机采样点,则该模式是最有可能出现的点(认识到这是对连续数据的伪造)。可以但不一定位于平均值或中位数附近。
解释完这些概念之后,就可以进入更具统计意义的演示了:
实线是平均值。虚线是中位数。虚线是模式。平均值表示数据点沿x轴的位置,而中位数仅反映了两侧的数据点数。该模式只是最大概率的点,不同于均值和中位数。
R代码:
set.seed(47730)
y <- rgamma(100, 2, 2)
d <- density(y)
plot(d)
rug(y)
abline(v = mean(y), lty = 1)
abline(v = median(y), lty = 2)
abline(v = d$x[which.max(d$y)], lty = 3)
“ 均值 ”,“ 中位数 ”和“ 众数 ”是不同领域中的“集中趋势”,也就是“最可能的结果”。它们都是不同“游戏”中的“最佳选择”。
概率与统计是一个部分由赌徒(link,link)建立的字段。当您参加赛马或扑克桌时,您想了解一些有助于您获胜的科学。他们也这样做,并撰写了相关内容,因此您不必自己发明它。
在赛马比赛中,您想选择一名获胜者。您没有未来的信息,但是您确实知道一些过去的信息。您知道过去几场比赛中每匹马跑得有多快。如果您想估算他们在下一场比赛中可能跑多快,您可以计算并比较平均值,也就是平均比赛时间。
另一个主要趋势是“中位数”-这是排序列表的中心。如果我在您的比赛时间清单上打错了错字,并且值比所有其他长1000倍,该怎么办?这会弄乱您的估计。您可能不会赌赢马。您如何解决?您可以手动寻找该值,也可以使用“中位数”。
如果您正在玩纸牌(例如“ 二十一点 ”),并且试图根据先前的纸牌确定是否需要另一张纸牌,该怎么办。您要查找的卡不是3.14,因为卡号是整数值。当“平均值”或“中位数”没有意义时,您如何确定最佳选择?在这种情况下,您要下注“模式”,即最有可能从发牌手中抽出的牌。
在所有这三种情况下,集中趋势只是“最佳选择”的另一种表达方式。
如果您不仅要考虑投注的主要趋势,也就是说,如果您要投注,以便能够在最大赢利的同时减少损失的影响,那么您必须考虑“变化趋势”。诸如标准差,分位数范围或替代模式及其频率之类的东西都用于最小化最大损失,同时最大化可能的获利。