为什么教学生p值是发现归因于偶然性的概率呢?


34

有人可以提供一个简洁的解释,为什么教学生p值是概率不是一个好主意(他们的发现是由于[随机]机会)。我的理解是,p值就是概率(获取更多极端数据|原假设成立)。

我真正的兴趣是告诉他们前者是什么危害(除了事实并非如此)。


43
因为错了吗?
Whuber

6
也许您想要的只是一个简单的示例,以证明这不仅是错误的,而且还很糟糕?
卡尔

2
帕特里克(Patrick)有些事情只是事实,而不是观点:例如,Pi不等于3(尽管试图将其立法)。但是您的评论确实是一个有用的澄清:它表明您不是在问教错误的事情的危害,而是在寻求向人们解释差异的理由。
Whuber

2
stats.stackexchange.com/questions/5591/…上,甚至在投票率较低的回复(IMHO)中,都对这些问题进行了很好的讨论。
ub

1
是的,卡尔,我想我正在寻找真实的例子。那些从事基于观测的研究(例如环境科学,生态学,野生动植物科学)的人会很棒。在发布此主题之前,我已经阅读了该主题(whuber)以及一些酒吧。谢谢你。
Patrick

Answers:


25

我对错误陈述的含义的理解与@Karl不同。我认为这是关于数据的声明,而不是关于null的声明。我理解这是由于机会而要求获得估计的可能性。我不知道这是什么意思-这不是一个明确规定的主张。

但是我确实理解,假设真实估计等于特定值,那么偶然获得我的估计的可能性可能意味着什么。例如,我知道男人和女人的平均身高实际上是相同的,这意味着男人和女人的平均身高有很大差异。这是明确规定的。这就是p值所提供的。错误语句中缺少的是条件null为true。

现在,我们可能会反对这种说法并非完美(例如,获得估计量的准确值的机会为0)。但这比大多数人解释p值的方式要好得多。

我在进行假设检验时一遍又一遍地说,关键点是“第一步是假设零假设是正确的。在此假设的基础上计算出一切。” 如果人们还记得这一点,那就太好了。


哦,对我来说看起来不错。我看到我一直在提出相同的观点而没有注意到[叹气](+1)
conjugateprior

但是什么是“伤害”呢?
rolando2'1

15

我已经看过很多这种解释(也许比正确的解释更多)。我将“他们的发现归因于[随机]机会”解释为“ 为真”,因此他们真正说的是Pr H 0 [实际上应该是Pr H 0 | data ;说,“鉴于我们所看到的(数据),只有机会在起作用的概率是多少?”]这可能是一个有意义的陈述(如果您愿意分配先验并做贝叶斯),但这不是p值H0Pr(H0)Pr(H0|data)

可能与p值完全不同,因此以这种方式解释p值可能会造成严重的误导。H0|数据

最简单的说明:假设先验的很小,但是一个数据却很少,因此p值较大(例如0.3),而后验的Pr H 0 | data ,仍然会很小。[但是也许这个例子不是那么有趣。]H0H0|数据


那么Pr(H0 | data)==概率(他们的发现是由于[随机]机会)?
Patrick

@帕特里克-是的。
卡尔

1
@Patrick-不,绝对不是。在经典的假设检验中,没有意义。H0|任何东西
ub

@whuber-但这就是重点。“概率(他们的发现归因于[随机]机会)”实际上是,我认为应该写为Pr H 0 | data 。可以理解(先验+贝叶斯),但是不是p值。H0H0|数据
卡尔

2
嗯,我想我仍然没有关注,尽管我很感激您调用了贝叶斯和先前的发行版来为您的回复和评论提供背景信息,否则令人困惑。那可能是因为我将“发现”解释为“数据”,而不是“ ”。即使在贝叶斯模型中,也很难将“零假设归因于偶然性”的概念笼罩在内。(在贝叶斯设置中,该语句不会添加开始时尚未假设的任何信息:所有假设都是随机变量。)H0
whuber

14

我将从(前)学生的角度添加一个较晚的答案:恕我直言,危害无法与错误相分离。

这种错误的“求导近似/捷径”会使意识到自己无法从逻辑上理解该陈述的学生产生很多困惑,但是假设所教给他们的是正确的,他们就不会意识到他们无法理解它。因为那是不对的

这不会影响只记住向他们提供的规则的学生。但这要求通过理解学习的学生要足够好

  • 自己得出正确的解决方案,并
  • 足够好,这样他们就可以确定自己是对的
  • 并得出结论,他们被告知胡说八道(由于某些据说的教actic原因)。

我并不是说没有有效的教学捷径。但是恕我直言,当采用这种捷径时,应予以提及(例如,“为了便于讨论,我们假设/近似于……”)。
但是,在这种特殊情况下,我认为这太有误导性了,没有用。


1
+1这是一个非常好的观点,如果您教给学生一些不正确的东西,则鼓励他们构建一个统计数据错误模型的模型,并很可能导致他们误解教学大纲中其他统计数据元素(例如,什么是置信区间-如果您鼓励学生认为某个假设可能附带一个概率概率,那么为什么不能将其应用于真实值位于特定区间的假设呢?理解是教育的真正目的,这需要准确性。
迪克兰有袋博物馆,2012年

8

直接提到问题:危害在哪里?

我认为,该问题的答案在于以下陈述的相反含义:“ p值是发现是由于随机机会引起的概率”。如果有人相信这一点,那么人们也可能会相信以下几点:“ [1-(p值)]是发现不是由于随机机会引起的概率。”

危害就在于第二个陈述,因为鉴于大多数人的大脑运作的方式,该陈述严重高估了我们对估计参数的特定值的信心。


6

这是我使用的一个简单示例:

假设我们的零假设是我们掷出一个2头硬币(所以prob(heads)= 1)。现在我们将硬币翻转一次并获得正面,其p值为1,是否意味着我们有100%的机会拥有2头硬币?

棘手的事情是,如果我们甩尾巴,那么p值将为0,而拥有2头硬币的概率为0,因此在这种情况下它们匹配,但与上面的值不匹配。上面的p值为1只是意味着我们观察到的与2头硬币的假设完全一致,但并不能证明该硬币是2头硬币。

此外,如果我们在进行频繁统计,那么零假设是True或False(我们只是不知道哪个),而就零假设做出(频繁)概率陈述是没有意义的。如果要讨论假设的概率,请执行适当的贝叶斯统计,使用贝叶斯概率定义,从先验开始,然后计算假设为真的后验概率。只是不要将p值与贝叶斯后验混淆。


3

好吧,对此有一点不同:

第一个基本问题是短语“由于[随机]机会”。未指定“机会”的想法对学生来说很自然,但是对于清楚地考虑不确定性和进行明智的统计数据的灾难性工作是危险的。对于类似的硬币翻转序列,很容易假设“机会”是由二项式设置描述的,概率为0.5。当然有一定的自然性,但从统计学的角度来看,这并不比假设0.6或其他更为自然。对于其他“不太明显”的示例(例如,涉及实参),考虑“机会”的外观是完全没有帮助的。

对于这个问题,关键思想是了解什么的“机会”是由H0描述,即什么实际可能性/ DGP H0名。一旦有了这个概念,学生们最终就不再谈论“偶然”发生的事情,而开始询问H0实际上是什么。(他们还发现事物可以与相当多种H保持一致,因此它们可以通过倒置测试在置信区间上抢占先机)。

第二个问题是,如果您正在使用Fisher定义p值的方法,则应该(imho)始终首先根据数据与H0的一致性进行解释,因为p的目的是为了看到这一点,而不是为了解释尾巴区域是某种“机会”活动(或坦率地说完全是对它的解释)。显然,这纯粹是强调修辞的问题,但这似乎有所帮助。

简而言之,其危害在于这种描述事物的方式不会推广到他们随后可能试图思考的任何非平凡模型。在最坏的情况下,这可能只会增加对统计研究已经产生的神秘感,这些研究已经针对这类人进行了大胆的描述。


1

如果我分开说,“ p值是一种效果是由于偶然性引起的概率”,这似乎暗示该效果是由偶然性引起的。但是,每种影响都部分是偶然造成的。在一个统计课上,在其中解释了尝试通过随机变量进行观察的需求,这是一个非常神奇且难以理解的陈述。它为p值赋予了它们所没有的能力。

如果您将特定情况下的机会定义为无效假设,那么您就是说p值会产生观察到的效果是由无效假设引起的概率。这似乎非常接近正确的陈述,但是声称概率的条件是该概率的原因再次超出了范围。正确的陈述(p值是在无效假设为真的情况下效应的概率)不会将原因归因于无效效应。原因多种多样,包括真实效果,效果周围的可变性和随机机会。p值不衡量任何一个的概率。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.