在粒子物理学中接受证据的“ 5 ”阈值的由来?


33

新闻报道称,欧洲核子研究中心将在明天宣布,希格斯玻色子已通过5个证据得到了实验检测。根据该文章:σ

5表示CMS和ATLAS检测器看到的数据不仅仅是随机噪声,而且有99.99994%的概率,并且有0.00006%的概率被蒙蔽了;5是被正式标记为科学“发现”的必要确定性。σσ

这不是很严格,但是似乎可以说物理学家使用标准的“假设检验”统计方法,将设置为,它对应于(两尾)?还是还有其他含义?α0.0000006z=5

当然,在许多科学中,通常将alpha设置为0.05。这将等效于“ two- ”证据,尽管我从未听说过这种说法。是否有其他领域(除了粒子物理学之外)对α的定义更为严格?有人知道规则如何被粒子物理学所接受的参考吗?σσ

更新:我问这个问题的原因很简单。我的《直觉生物统计学》一书(与大多数统计书籍一样)的一节解释了通常的“ P <0.05”规则的任意性。我想添加一个科学领域的例子,其中值要小得多。但是,如果使用贝叶斯方法(如下面的一些注释所示)实际上使示例更加复杂,那么它就不太合适或需要更多解释。α



在质量控制中,正如丹尼尔(Daniel)的问题/建议所建议的那样,认为有六个西格玛。这些拒绝概率都确实假设从正态分布中进行采样,而其他分布的尾部概率可能更大。仅在特殊情况下使用5或6 sigma这样的极端值才有用。在实践中,数据的样本量和可变性使得超过2或3 sigma的推断不可行。
Michael R. Chernick

1
基本上,大多数粒子物理学家在计算参数时都更喜欢贝叶斯思想,因此他们实际上“在给定数据和先验条件的情况下,可以肯定的希格斯信号不为零”,这与说那里只有“信号为随机噪声的机会为0.01%”(系统性系统也会产生非随机波动!)。[1]:physics.stackexchange.com/questions/8752/...X%
内斯托尔

3
@Néstor:我现在正在观看希格斯新闻发布会的现场直播,没有人提到贝叶斯解释。使用“ p值”和“显着性水平”,但是只有严重误导的贝叶斯才能将这些解释为信号是随机噪声的概率。我认为,OP的问题引号中的文字只是对p值的实际含义的误解。
MånsT

1
顺便说一句,我在我的博客上写了一篇有关此问题的博客文章:randomastronomy.wordpress.com
内斯托尔

Answers:


13

在大多数统计应用中,关于“所有模型都是错误的,有些模型是有用的”的陈词滥调。在这种情况下,我们只希望模型能够在给定的级别上执行,因为我们使用某种简单的模型描述了一个极其复杂的过程。

物理学有很大的不同,因此从统计模型发展而来的直觉并不是那么合适。在物理学中,特别是直接处理基本物理定律的粒子物理学中,该模型实际上应该是对现实的精确描述。与模型预测值的任何偏离都必须由实验噪声完全解释,而不是模型的局限性。这意味着,如果模型正确且正确,并且实验设备能够理解统计显着性,则应该设置很高的标准。

另一个原因是历史原因,过去粒子物理界被“发现”以较低的显着性水平烧掉,后来又撤回了,因此,现在它们通常更加谨慎。


1
您是否同意物理学使用的Alpha值很低的标准统计假设检验(在这种情况下,无论如何)。还是像Nestor在上面的评论中所说的那样,他们使用某种贝叶斯方法?
哈维·莫图尔斯基

2
通过与一些我认识的从事ATLAS工作的人交谈,我的理解是,分析全是贝叶斯方法。但是,他们是较低级别的人(即实际从事这项工作的人)。如果链上更高层的一些负责人对解释的理解较差,这也不会令我感到惊讶。话虽如此,大型强子对撞机结果的表述还是很差的,而且并没有像其他人所指出的那样真正遇到贝叶斯。
Bogdanovist 2012年

2
我一直认为,特别是粒子物理学还处理数十亿个事件,因此您必须将标准设置得很高。
韦恩

11

历史和起源

据罗伯特·d表兄弟1和托马索·多里戈2中,原点5点σ门槛根源在于60年代早期的粒子物理工作的时候散射实验的众多直方图进行了调查,并寻找峰/颠簸可能表明一些新发现的粒子。该阈值是解决正在进行的多个比较的粗略规则。125σ

两位作者是指从一个罗森菲尔德1968年的文章3,其中涉及的问题是否有远介子和重子,这其中有许多4 σ,其中测量影响。这篇文章否定了这个问题,认为已发表的索赔数量与统计上预期的波动数量相对应。随着几个计算支持这一论点的文章提拔使用的5 σ级别:34σ5σ

罗森菲尔德说:“我们去到远出质谱其中颠簸已报告的调查之前 (Kππ)3/2,(πρ)我们应该先决定我想要什么意义的需求门槛在1968年告诉你,虽然实验者或许应该注意3σ效果- ,理论家和现象学家会做的更好等到效果达到>4σ “。

在本文的后面(重点是我的)

罗森菲尔德:“然后在本节开始时再次警告我;我们每年至少产生10万个潜在颠簸,应该预期会有4σ和数百3σ波动。这意味着什么?对理论家或现象学家来说道德是简单的; 等待5σ效应“。

Tommaso似乎很谨慎地指出它始于Rosenfeld文章

汤马索:“但是,我们应该注意的是,这篇文章写于1968年,但是在70年代和80年代,并没有采用对发现主张有5个标准差的严格标准。例如,没有使用5-sigma标准。是因为发现了W和Z玻色子,使Rubbia和Van der Meer于1984年获得了诺贝尔物理学奖。”

但在上世纪80年代使用的5σ被传播出去。例如,天文学家史蒂夫·施耐德(Steve Schneider)4在1989年提到它是一种被教导的东西(在下面的引用中强调我的意思):4

施耐德:“通常,表观上不一致的数据被引用为95%或99%的'置信度',但这仅是两个或三个统计西格玛。我被教导不要相信小于5西格玛的东西,如果您认为关于它是一个非常苛刻的要求---就像99.9999%的置信度,但是当然使用了这样的限制是因为sigma的实际大小几乎是未知的,天文学中有太多自由变量,我们可以“无法控制或一无所知。”

然而,在仍然是基于粒子物理学的许多出版物的场4σ不符,截止到90年代末。这不仅改变了进5σ在21世纪的beginnning。它可能被规定为2003年左右出版的指南(请参阅富兰克林的《转变标准5》的序言)。5

富兰克林:到2003年,“观察”的5个标准偏差标准似乎已经生效

...

BaBar合作的一位成员回忆说,大约在这次,《物理评论快报》的编辑发布了5西格玛标准作为准则


现代使用

目前,5σ阈值是教科书的标准。例如,它以标准文章出现在physics.org 6上或在Glen Cowan的某些著作中出现,例如来自粒子数据组7的《粒子物理学评论》的统计部分(尽管有一些重要的旁注)。67

格伦考恩:通常在HEP,其中显着性的效果被认为有资格作为发现的水平Z=5,即5σ效果,对应于p值2.87×107。但是,人们实际相信存在新过程的程度通常也将取决于其他因素,例如新信号假设的合理性和它可以描述数据的程度,对模型的信心导致观察到的p值,并可能对多个观察值进行校正,其中一个集中在获得的最小p值上(“其他地方的效果”)。

使用的5σ水平现在归因于4个原因:

  • 历史实践基础上的一个发现,5σ是一个很好的阈值。(外来的东西看起来随机发生,甚至介于 3σ4σ,如最近的750电子伏特diphoton过量

  • 其他地方外观效果(或多重比较)。或者是因为多个假设进行测试,或者是因为实验中进行很多次,人们对此进行调整(非常粗略地)通过调节结合到5σ。这与历史论证有关。

  • σσσ6σ

  • 5σ

5σ8,912


其他领域

有趣的是,许多其他科学领域没有类似的阈值,或者不以某种方式处理该问题。我认为这对于人类实验来说是有意义的,因为在人类实验中扩展具有0.05或0.01重要性的实验非常昂贵(或不可能)。

1011


  1. 考辛斯,RD(2017)。Jeffreys-Lindley悖论和高能物理学中的发现标准。合成,194(2),395-432。arxiv链接

  2. Dorigo,T.(2013)揭开五个西格玛标准的神秘面纱,来自science20.com 2019-03-07

  3. 罗森菲尔德(AH)(1968)。有远处的介子或重子吗?网络资源:奖学金

  4. Burbidge,G.,Roberts,M.,Schneider,S.,Sharp,N。和Tifft,W。(1990,11月)。小组讨论:与Redshift相关的问题。在NASA会议出版物(第3098卷,第462页)中。链接到harvard.edu上的复印件

  5. 富兰克林(Franklin,A.)(2013)。转变的标准:20世纪的粒子物理学实验。匹兹堡大学出版社。

  6. 5 sigma是什么意思?来自physics.org 2019-03-07

  7. Beringer,J.,Arguin,JF,Barnett,RM,Copic,K.,Dahl,O.,Groom,DE,...&Yao,WM(2012)。粒子物理学评论。物理评论D粒子,场,引力和宇宙学,86(1),010001。(第36.2.2节。重要性检验,第394页,链接aps.org

  8. Lyons,L.(2013年)。发现5西格玛的重要性。arXiv预印本arXiv:1310.1284。arxiv链接

  9. Lyons,L.(2014年)。搜索新物理学中的统计问题。arXiv预印本arxiv链接

  10. Baker,M.(2015年)。超过一半的心理学研究未能通过再现性测试。自然新闻。来自nature.com 2019-03-07

  11. 霍顿河(2015)。离线:什么是医学的5 sigma?柳叶刀,385(9976),1380. from thelancet.com 2019-03-07


4

出于与物理学完全不同的原因,在进行假设检验时,还有其他领域的alpha更为严格。遗传流行病学就是其中之一,尤其是当他们使用“ GWAS”(全基因组关联研究)来查看疾病的各种遗传标记时。

因为GWAS研究是一个庞大的运动在多个假设检验,国家的最先进的分析技术都是建立各地要严格得多阿尔法比0.05。在基因组学研究之后出现的其他此类“候选筛选”研究技术可能也会这样做。


2
α

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.