您最喜欢外行对一个困难的统计概念的解释是什么?


36

我真的很喜欢听到对复杂问题的简单解释。您最喜欢哪种比喻或轶事来解释一个困难的统计概念?

我最喜欢的是穆雷(Murray)对酒鬼和她的狗的协整解释。默里(Murray)解释了两个随机过程(一个流浪的醉汉和她的狗,奥利弗(Oliver))如何能够具有单位根,但由于它们的联合第一差异是固定的,因此仍然是相关的(共同集成)。

喝醉了的人从酒吧出发,以随意行走的方式漫无目的地游荡。但是她周期性地发出“奥利弗,你在哪里?”的声音,奥利弗打断了他漫无目的的徘徊以吠叫。他听见她的话。她听到他的声音。他想:“哦,我不能让她离得太远;她会把我拒之门外。” 她想:“哦,我不能让他离得太远;他会在半夜用吠叫叫醒我。” 每个人都评估彼此之间有多远,并努力部分缩小该差距。

Answers:


18

p值表示数据对原假设的尴尬程度

尼古拉斯·麦克斯韦(Nicholas Maxwell),《数据问题:随机世界的概念统计》,美国加利福尼亚州埃默里维尔市:重点大学出版社,2004年。


15
  1. 如果您用木头雕刻出分布(直方图),并尝试在手指上进行平衡,则无论分布的形状如何,平衡点都是平均值。

  2. 如果将散点图放置在散点图的中间,并用弹簧将其附加到每个数据点,则散点图的静止点将是您的回归线。[1]

[1]从技术上讲,这将是主成分回归。您将不得不迫使弹簧仅“垂直”移动到最小二乘方格,但是该示例说明了这两种方式。


2
弹簧力与变形成正比,因此这不是最小二乘回归!
shabbychef

1
不错的尝试!取决于春天。例如,如果弹簧常数为1 / sigma,则效果很好;)
Neil McGuigan 2010年

2
不,不,关键是在静态平衡下,力的总和为零;假设弹簧常数相等,您将使绝对偏差之和(即回归,尤其是平方)最小化。这忽略了这样一个事实,即弹簧必须在浮动杆上自由浮动,因此弹簧会移动,以使变形不会完全在y方向上,从而导致类似“主要零部件”的配合,但会出现绝对误差。大号1个ÿ
shabbychef 2010年

@shabbychef:与变形成比例的弹簧力意味着弹簧能量与变形成正比。实际上,弹簧能量是在平衡时最小化的。力的总和为零不是力或被最小化。 L 1使绝对值之和最小。大号1个大号1个
wnoise 2011年

12

我以前曾用醉汉的散步作随机行走,而醉汉和她的狗则进行了整合。它们非常有帮助(部分是因为它们很有趣)。

我最喜欢的常见示例之一是生日悖论维基百科条目),它阐明了概率的一些重要概念。您可以在一个人满为患的房间中模拟这一点。

顺便说一句,我强烈推荐安德鲁·盖尔曼(Andrew Gelman)的“教学统计:一包技巧”,作为一些教授统计概念的创新方法的示例(请参阅目录)。也请看一下他关于统计学教学课程的论文“大学水平的统计学教学课程”。以及“对政治学,社会学,公共卫生,教育,经济学等领域的研究生进行教学的贝叶斯”

为了描述贝叶斯方法,使用不公平的硬币并将其多次翻转是一种非常常见/有效的方法。


1
没有不公平的硬币这样的东西:stat.columbia.edu/~gelman/research/published/diceRev2.pdf
蒂姆

11

我想通过“课堂”练习来演示抽样变异以及本质上是中心极限定理。每班有100名学生,他们的年龄都写在纸上。在计算出平均值之后,所有纸张均具有相同的尺寸并以相同的方式折叠。这是人口,我计算了平均年龄。然后,每个学生随机选择10张纸,写下年龄并将其放回书包。(S)他计算平均值,然后将书包传递给下一个学生。最终,我们有10个学生的100个样本,每个样本估计人口均值,我们可以通过直方图和一些描述性统计量来描述。

然后,我们这次使用一组100个“意见”重复演示,这些意见重复了最近民意测验中的某些“是/否”问题,例如,如果明天(英国)选举举行,您会考虑投票支持英国国民党。学生们从这些意见中抽取10个。

最后,我们用连续数据和二进制数据演示了采样变化,中心极限定理等。


10

绝对是蒙蒂·霍尔问题。http://en.wikipedia.org/wiki/Monty_Hall_problem


1
当我初次阅读并思考该问题时,这个问题就使我的大脑+1了-解决方案非常简单,但是教会了很多有关概率的知识。
Sharpie

1
我发现蒙蒂·霍尔(Monty Hall)的问题绝非简单的外行对概率的解释。我理解它,但是我仍然很难解决它,更不用说充分理解它了,以向非统计人员解释它并让他们从中学习一些东西...无论如何,您不指定问题是否存在是你的困难概念,还是外行的解释。-1直到您这样做。
naught101 2012年

2
解释Monty Hall问题的简单方法是想象同样的问题,但是有1000个门-其中999个门后面有山羊,而其中只有1个门后面有汽车。假设您选择一扇门,游戏节目主持人会打开998扇其他门,并询问您是否要将您的决定更改为他未打开的一扇门。知道他不可能用后面的车打开车门,那么您就必须切换到另一扇门(或者非常确信自己的最初选择是正确的)。
Berk U. 2012年

10

1)很好地演示了如何定义“随机”以计算出某些事件的概率:

跨圆画一条随机线比半径长的机会是多少?

问题完全取决于您如何划界。您可以用现实的方式描述在地面上绘制的圆圈的可能性可能包括:

在圆内绘制两个随机点,并在其中划一条线。(查看两只苍蝇/石头掉落的地方...)

在圆周上选择一个固定点,然后在圆的其他位置随机选择一个点并将其连接。(实际上,这是在一根圆棒上以可变角度穿过一根给定点和一个随机点(例如,石头掉落的地方)放置一根棍子。)

画一个直径。沿其随机选择一个点,并通过该点绘制垂直线。(将棒沿直线滚动,使其停留在圆上。)

向某人展示一些可以做一些几何图形(但不一定是统计数据)的问题相对容易,问题的答案可能相差很大(从大约2/3到大约0.866左右)。

1个210

3)解释为什么医学诊断似乎确实有缺陷。如果对疾病foo进行的检测能够准确地识别出患有foo的人,那么准确率为99.9%,但只有0.1%的误报可真正诊断出没有foo的人,而当这种疾病的患病率很低时,这似乎常常是错误的(例如千分之一),但许多患者都接受了测试。

这是用真实数字最好地解释的-假设有100万人接受了测试,那么有1000人患了该疾病,有999人被正确识别,但是在999,000人中有0.1%是999人被告知患有但没有。因此,尽管准确率很高(99.9%),误报率很低(0.1%),但实际上有一半人被告知没有。然后进行第二次(理想情况下是不同的)测试将这些组分开。

[顺便说一下,我之所以选择这些数字是因为它们易于使用,当然,由于准确性/误报率是测试中的独立因素,它们的总和不必达到100%。]


2
我认为您的第一个例子涉及贝特朗的悖论。很好的说明了定义概率空间的不同方法!
chl 2010年

9

萨姆·萨维奇(Sam Savage)的《平均值漏洞》(Flaw of Averages)充满了对统计概念的精明的外行解释。特别是,他对詹森的不平等现象有很好的解释。如果您的投资收益曲线图是凸的,即“对您微笑”,那么随机性对您有利:您的平均收益大于您的平均收益。



6

Behar等人收集了25个用于统计教学的类比。这是两个示例:

2.9所有模型都是理论上的: 宇宙中没有完美的球体看来,宇宙中最常见的几何形式是球体。但是宇宙中有多少个数学上完美的球体?答案是否定的。地球,太阳,撞球都不是一个完美的球体。那么,如果没有真实的球体,那么确定球体的面积或体积的公式有什么用呢?一般而言,统计模型也是如此,尤其是正态分布。尽管最常见的例子之一是身高分布,但如果我们要掌握地球上每个成年人的身高,即使数据按性别分层,直方图轮廓也不会对应于高斯钟形曲线,种族或任何其他特征。

2.25残留物不应包含信息:垃圾袋残留物是从数据中删除所有信息后剩下的东西。由于它们不应携带任何信息,因此我们将其视为“垃圾”。有必要确保我们不要丢弃任何有价值的(信息)垃圾,这些垃圾可以用来更好地解释因变量的行为。

其他例子包括

  • “样本量对处理比较的影响:双筒望远镜的放大倍数”
  • “样本量与人口总数:品尝汤匙”

参考文献

  • Behar,R.,Grima,P.和Marco-Almagro,L.(2012年)。二十五类推论统计概念。美国统计学家,(刚刚接受)。

3

好玩的问题。

有人发现我从事生物统计学工作,然后他们问我(基本上):“统计不是在撒谎吗?”

(其中带回了马克·吐温关于谎言,该死的谎言和统计数据的引用。)

我试图解释说,统计数据使我们能够以100%的精度说出,在给定假设和给定数据的情况下,某某某事的概率就是某某某事。

她没有留下深刻的印象。


1
“让我们以100%的精度说出我们所缺乏的精度到底有多大”
naught101 2012年

如果不是完全驳斥,@ Jeromy的回答表明了为什么应该放弃“ 100%精度”的概念。
rolando2
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.