费舍尔这句话是什么意思?


14

我到处都看到这个名言,但每次都无法理解重点。

一个人暂时拒绝假设的情况,作为惯常做法,当重要性达到1%或更高水平时,肯定会被误以为不超过1%的此类决定。因为当假设正确时,他只会在这些情况的1%中被误解,而当假设错误时,他在误解中永远不会被误解。[...]但是,这种计算是荒谬的学术研究,因为实际上没有科学工作者每年都有固定的意义水平,在任何情况下,他都拒绝假设。他宁愿根据自己的证据和想法对每一个具体案件都下定决心。不应忘记,为进行测试而选择的案例显然是一个高度选择的案例,并且即使对于一个工人也无法指定选择条件;同样,在所使用的论点中选择一个特定的审判所表明的实际重要性水平显然是不合法的,就好像使用这一水平是他一生的习惯。

(统计方法和科学推断,1956年,第42-45页)

更具体地说,我不明白

  1. 为什么选择用于“高度选择”测试的案例?假设您想知道一个区域内人员的平均身高是否小于165厘米,然后决定进行测试。据我所知,标准程序是从该区域抽取随机样本并测量其高度。如何高度选择?
  2. 假设案例是经过高度选择的,但是这与重要性级别的选择有什么关系?再次考虑上面的例子,如果您的抽样方法(我认为是费舍尔所说的选择条件)是歪斜的,并且以某种方式偏爱高个子,那么整个研究就会毁了,而对显着性水平的主观确定无法挽救它。
  3. 实际上,我什至不知道什么是“特定试验所表明的实际重要性水平”。它是该实验的值,还是一些著名的预设值(如著名的0.05),还是其他?p

Answers:


15

这是费舍尔在您的大胆引用中所说的内容。不应忘记,要选择什么样的假设进行检验要花很多时间,以至于即使对于一个人的决定,也无法一一列举。同样不应忘记的是,由于上述原因,您不能像终生习惯那样始终以相同的方式决定特定试验的重要性水平。

  1. 由于研究人员的偏见及其当前的知识状态,因此选择了一种科学的假设作为值得与许多其他竞争假设进行比较的检验。所述假说是“高度选择的”,而不是样本; 的假设是,我们采用的测试情况。

  2. 假设的选择过程会影响我们的显着性水平。如果我们非常确定一个假设,那么应该使重要性水平不那么满足自己。如果我们不确定,那么举证责任就会更高。其他因素也起作用,例如在药物试验中I型错误比II型错误更严重。

  3. 我认为,当他说“由...表示”时,他的意思只是“被选中”。是的,它是一个预设值,如果p值更极端,我们将拒绝该假设。


10

费舍尔所指的情况不是观察,而是检验。也就是说,我们选择假设进行检验。我们不只是检验随机假设,而是基于观察,文献,科学理论等。

如果您确实检验了随机假设,那么您被误解的次数(在报价的第一句话中)将为1%(或选择任何值)。例如,如果我们检验了以下假设

  • 一个人的社会保险号的奇偶性与他的智商有关

  • 金色头发的人比深色头发的人扔飞盘更好

  • 在“交叉验证”上获得答案的时间与您名字中的音节数有关。

并以1%的比例测试了一大堆,我们将在大约1%的时间内拒绝空值,并且这样做不正确。(当然,除非我对上面的废话有所了解)。

我曾经看过一篇有关发色和飞盘投掷的文章,但发现有所不同!因此,我称这种事情为“飞盘研究”。

但是我最喜欢引用中的部分是:

因为实际上没有科学工作者每年都有固定的意义水平,在任何情况下,他都拒绝假设。他宁愿根据自己的证据和想法对每一个具体案件都下定决心。

他一定在坟墓里旋转。


4
这是一个很好的答案,但我犹豫将“飞盘研究”视为坏事。只要适当地使用这些方法(考虑到效果的大小等),我认为结果是合理的。我的意思是,据信染发与飞盘的投掷无关,但是直到数百年前,地球才是宇宙的中心!我们可以批评人们做错了事,但是我们不应该责怪任何人提出问题。话虽这么说,我同意某些假设没有其他假设有用,但它们仍然是正确的
nalzok,

而且它们也可能是I型错误。
彼得·弗洛姆

1
相关:xkcd.com/882
jkdev

2

为了查看报价的背景,我来到了该书的一个版本(我不确定是哪个版本),但报价略有不同

https://archive.org/details/in.ernet.dli.2015.134555/page/n47

通过参照可能的陈述的假设频率是对还是错,试图解释科学研究中重要检验的可能性的尝试似乎错过了这种检验的本质。一个人暂时地“拒绝”一个假设(根据习惯做法),当重要性达到1%或更高水平时,肯定会被误以为不超过1%的此类决策。因为当假设正确时,他只会在这些情况的1%中被误认,而当假设不正确时,他就不会被误认为拒绝。因此,可以做出这种不平等声明。但是,这种计算是荒谬的学术性研究,因为实际上没有科学工作者具有固定的重要性水平,并且在任何情况下,每年都必须如此。他拒绝了假设;他宁愿根据自己的证据和想法对每一个具体案件都下定决心。此外,该计算仅基于一个假设,根据证据,该假设通常根本不被认为是真实的,因此假定该短语具有任何含义的错误决策的实际概率可能是远低于指定重要性级别的频率。对于拒绝假设的实践者来说,理所当然地是漠不关心,可能导致他错误地接受假设,因为在这种情况下,他不接受假设。常常根本不相信“错误”是真的,因此,假设这样的短语具有任何含义,错误决定的实际概率可能远小于指定重要性级别的频率。对于拒绝假设的实践者来说,理所当然地是漠不关心,可能导致他错误地接受假设,因为在这种情况下,他不接受假设。常常根本不相信“错误”是真的,因此,假设这样的短语具有任何含义,错误决定的实际概率可能远小于指定重要性级别的频率。对于拒绝假设的实践者来说,理所当然地是漠不关心,可能导致他错误地接受假设,因为在这种情况下,他不接受假设。

在我看来,这是一种批评,是将拒绝可能性(类型I错误)的数学表达式用作一些严格的论据。这些表达对于相关的内容通常不是很好的表达,也不是严格的。

  1. 为什么选择用于“高度选择”测试的案例?

    这似乎与句子有关

    此外,该计算仅基于假设,根据证据,该假设通常根本不成立。

    我们对正在检验的假设并不冷漠,并且经常认为正在检验的假设是正确的。

  2. 这与显着性水平的选择有什么关系?

    这与

    因此,假设这样的短语具有任何含义,错误决策的实际概率可能会比指定重要性级别的频率小得多

    当原假设真时,p值就是犯错的频率。但是实际犯错的频率会有所不同(降低)。

  3. 什么是“特定试验表明的实际显着水平”?

    我相信这部分涉及某种p值黑客行为。在观察发生之后更改显着性水平alpha以匹配观察到的p值,并假装这始终是开始的临界值。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.