谁首先使用/发明了p值?


30

我试图写一系列有关p值的博客文章,我认为回到所有起点很有趣-这似乎是Pearson的1900年论文。如果您熟悉那篇论文,您会记住这涵盖了拟合优度测试。

在涉及p值时,Pearson的语言有些松懈。他在描述如何解释其p值时反复使用“奇数”。例如,在第168页中,当谈到重复掷12个骰子的结果时,他说“ ...导致我们得出P = .0000016,或者对于这样的随机偏差系统,赔率是62499对1有了这样的几率,就可以合理地得出结论,骰子表现出对更高点的偏见。

在本文中,他提到了较早的作品,包括1891年Merriman撰写的关于最小二乘法的书。

但是Pearson确实为p值(拟合检验的卡特卡方差)进行了计算。

皮尔森(Pearson)是第一个认识p值的人吗?当我搜索p值时,提到了费舍尔-他的工作是在1920年代。

编辑:感谢您提到拉普拉斯(Laplace)-他似乎没有解决零假设(皮尔逊似乎隐含地这样做,尽管他从未在1900年的论文中使用该术语)。培生(Pearson)从以下方面看拟合检验的优劣:假设计数是从无偏过程中得出的,那么观察到的计数(以及计数更加偏差)从假设的分布中产生的概率是多少?

他对概率/奇数的处理(他将概率转换为几率)表明他正在对原假设进行隐式设计。至关重要的是,他还提到x ^ 2值引起的概率表明,相对于他现在计算出的p值,“相对于我们现在所认识的语言,这种偏离系统是不可能的或比现在更不可能的”。

阿布诺没有走那么远吗?

随时将您的评论作为答案。很高兴看到讨论。


7
本文建议拉普拉斯使用它,这将设置一个下限:en.wikipedia.org/wiki/…–

9
有人可能会争辩说,摘自《两性诞生》中观察到的恒定规律性的《论上帝的天赋论》中的Arbuthnot(1710)也许可以算作。他使用硬币模型(“交叉和堆积”),首先计算出头正好与尾巴一样多的概率,然后指出“机会将在中间一个词后面加上一些词,并倾向于一个词”。但是,如果它们仅能由机会控制,那么就永远不可能达到四肢。” 我们可以看到他在那里接近p值的概念。
Glen_b-恢复莫妮卡

4
奇怪的是,大卫在他的清单jstor.org/stable/2685564?seq=1#page_scan_tab_contents中暗示,术语P值最早由戴明(Deming)在1943年所著的《数据的统计调整》中使用。我知道您是在使用该术语而不是该术语,但是我发现看到该术语何时出现很有趣。
mdewey

2
谁发明的可能很难找到。但是,当前应该使用p值的人应该是费舍尔。
卡洛斯·辛纳利

1
我们将p值定义为“在某种假设正确的情况下,在一定范围内(通常是某个值或更高的值,对于诸如Pearson在1900年所使用的统计数据而言)获得结果的概率”?
Sextus Empiricus

Answers:


19

雅各布·伯努利(〜1700)-约翰·阿布诺(1710)-尼古拉·伯努利(1710)-亚伯拉罕·德·莫夫(1718)

关于Arbuthnot 1的情况,请参见下面的注释,也可以在de Moivre的机会学说(1718)中从251-254页中进行阅读,该书进一步扩展了这种思路。

De Moivre进行了两个步骤/改进:

  1. Bernoulli分布的正态近似,有助于轻松计算出结果在一定范围之内或之外的概率。在有关Arbuthnot案例的示例之前的部分中,de Moivre撰写了有关伯努利分布的近似值(现在称为高斯/正态分布)。这种近似值可以轻松计算出p值(Arbuthnot无法做到)。

  2. Arbuthnot论点的推广。他提到“这种推理方法也可以在其他一些非常有趣的查询中有用地应用”。(这可以部分归功于de Moivre,因为它证明了该论点的普遍适用性)


  • 根据德莫夫(De Moivre)的说法,雅各布·伯努利(Jacob Bernoulli)在他的Ars Conjectandi中写道了这个问题。迪莫夫(De Moivre)用英文“分配极限,通过重复实验使事件的概率可以无限地接近给定的概率”,但伯努利的原始文本是拉丁文。我不知道是否有足够的拉丁语能弄清伯努利是否在写有关p值之类的概念,或更像是大数定律。值得一提的是,贝努利声称拥有这些想法已有20年了(并且作品1713在他1705年去世后出版,因此似乎早于@Glen_b在Arbuthnot的评论中提到的日期1710)。

  • de Moivre的灵感来源之一是Nicolaus Bernouilli,他在1712/1713年计算出男孩的出生概率不小于7037并且不大于7363,而出生的孩子总数为14000。男孩的概率是18/35。

    (此问题的数字是基于伦敦80年的统计数据。他在写给Pierre Raymond de Montmort的信中写道,该信发表于Montmort的《危险随笔》(第二版,1713年)。)

    我没有完全遵循的计算结果是43.58到1的概率。(使用计算机将所有项从7037到7363的二项式的概率加起来,我得到175:1,所以我可能误解了他的工作/计算结果。 )


1:约翰·阿布诺特(John Arbuthnot)在《论上帝的天命》一书中对此作了论述,该论据取自男女两性的出生中所观察到的恒定规律(1710)。

128214836000000000000000000000

Arbuthnot:那么A的机会将接近无限小的数量,至少小于任何可分配的分数。从那里开始,统治的是艺术,而不是机会。


StackExchangeStrike撰写


可能由安德鲁·戴尔(Andrew Dale)撰写的《逆概率史》可能会提供更多帮助。(在搜寻Bernoulli的翻译时,我发现他确实翻译了de Moivre提到的相关文章)。在早期,这种逆概率现在被认为是一种贝叶斯技术,可能已经成为解释和使用中的一种经常使用的工具。
Sextus Empiricus

3

我有三个支持链接/参数,它们支持〜1600-1650的日期用于正式开发的统计信息,而支持早得多的用于概率的使用

如果您接受假设检验作为基础,先于概率,那么在线词源词典将提供以下内容:

假设(N)。

1590年代,“特别声明;” 1650年代的“命题,假设并认为是理所当然的,用作前提”,来自中古法语假设,直接来自晚期拉丁语假设,来自希腊语假设“基础,基础,基础”,因此在广泛使用中“论据基础,假设”,字面意思是“置于……之下”,来自假设-“低于”(见假设)+论文“置于……之下,命题”(来自重复形式的PIE根* dhe-“设置,放置”)。逻辑术语;逻辑术语 狭义的科学意义是从1640年代开始的。”

维基百科优惠:

“自1596年以来记录,来自中古法语假设,晚期拉丁语假设,古希腊语ὑπόθεσις(hupóthesis,“论证基础,假设,假设”),字面意思是“置于下方”,其本身来自fromποτίθημι(hupotíthēmi,“之前,建议”),来自ὑπό(hupó,“在下面”)+τίθημι(títhēmi,“我放到这里”)。

名词假设(复数假设)

(科学)松散使用的临时猜想,用于解释观察,现象或科学问题,可以通过进一步的观察,研究和/或实验进行检验。作为科学的艺术术语,请参阅所附的引文。比较理论,并在那里报价。报价▲

  • 2005,Ronald H. Pine,http//www.csicop.org/specialarticles/show/intelligent_design_or_no_model_creationism,2005年 10月15日:

    在学校里,我们中有太多人被教导说,科学家在试图弄清楚某些事情的过程中,首先会提出“假设”(猜测或推测,甚至不一定是“受过教育”的猜测)。……但是,“假说”一词在科学中应专门用于对为什么某种现象存在或发生的理性,明智,知识知情的解释。假设可能尚未检验。可能已经过测试;可能是伪造的;尽管经过了测试,但可能尚未证伪;或可能经过无数次无数次的伪造测试;它可能会被科学界普遍接受。对科学中使用的“假设”一词的理解需要掌握Occam的基本原理。Razor和Karl Popper关于“可证伪性”的思想-包括任何受人尊敬的科学假设原则上都必须“有能力”被证明是错误的想法(如果实际上应该恰恰是错误的话),但没有一个可以被证明是真的。科学中对“假设”一词的正确理解的一个方面是,只有极少数的假设有可能成为一种理论。”

关于概率和统计,维基百科提供:

数据收集

采样

当无法收集完整的人口普查数据时,统计学家会通过制定特定的实验设计和调查样本来收集样本数据。统计本身也提供了通过统计模型进行预测和预测的工具。基于采样数据进行推论的想法始于1600年代中期,与估算人口和发展人寿保险的先驱有关。(参考:Wolfram,Stephen(2002年)。《一种新的科学》,Wolfram Media,Inc.,第1082页,ISBN 1-57955-008-8)。

要使用样本作为整个人口的指南,重要的是它必须真实地代表整个人口。代表性抽样确保推论和结论可以安全地从样本扩展到总体。一个主要问题在于确定所选样本实际上具有代表性的程度。统计提供了估算和纠正样本和数据收集程序中任何偏差的方法。还有一些用于实验的实验设计方法,可以在研究开始时减少这些问题,从而增强其辨别有关人口真相的能力。

抽样理论是概率论数学学科的一部分。概率用于数学统计中,以研究样本统计的抽样分布,更一般地,研究统计程序的属性。当所考虑的系统或总体满足该方法的假设时,使用任何统计方法均有效。粗略地说,经典概率论与抽样理论之间的观点差异在于,概率论从总人口的给定参数开始,推论出与样本有关的概率。然而,统计推断却朝着相反的方向移动-从样本中归纳推断更大或总人口的参数

摘自“ Wolfram,Stephen(2002)。一种新的科学。WolframMedia,Inc.,第1082页”。

统计分析

•历史。古代已经对机会游戏的几率进行了一些计算。大约从1200年代开始,神秘主义者和数学家根据概率组合枚举获得了越来越详尽的结果,并在1600年代中期和1700年代初开发系统正确的方法。从采样数据进行推论的想法出现在1600年代中期,与估计人口和发展人寿保险的先驱有关。在1700年代中期,主要是在天文学中开始使用平均校正方法来纠正假定为随机观测误差的方法,而最小二乘拟合和概率分布的概念则在1800年左右建立。基于概率的模型个体间的随机变异在1800年代中期开始用于生物学中,而现在用于统计分析的许多经典方法是在1800年代末和1900年代初在农业研究的背景下开发的。在物理学中,概率模型对于1800年代后期引入统计力学和1900年代初期引入量子力学至关重要。

其他来源:

“本报告主要以非数学术语定义了p值,总结了p值方法用于假设检验的历史渊源,描述了p≤0.05在临床研究中的各种应用,并讨论了p≤ 5×10-8和其他值作为基因组统计分析的阈值。”

“历史起源”部分指出:

[1]

[1]。Arbuthnott J.关于上帝普罗维登斯的一种论证,取自男女两性的出生中不断的规律性。Phil Trans 1710; 27:186–90。doi:10.1098 / rstl.1710.0011 发布于1710年1月1日

“ P值与医学和统计学有着长期的联系。除了是数学家之外,John Arbuthnot和Daniel Bernoulli都是医生,他们对出生时性别比(Arbuthnot)和行星轨道倾角(Bernoulli)的分析提供了两者显着性检验的最著名的早期例子如果以医学期刊中普遍存在的标准作为判断标准,则P值在医学界也非常受欢迎,另一方面,它们也受制于统计学家定期批评,只是勉强地捍卫了例如,十几年前,著名的生物统计学家,已故的马丁·加德纳和道格·奥特曼5 - 7 8 9 10 11145789与其他同事一起,成功开展了一项运动,说服《英国医学杂志》,使其对P值的重视程度降低,而对置信区间的关注度更高。《流行病学》杂志完全禁止了他们。最近,攻击甚至出现在流行的媒体。因此,P值似乎是《流行病学和生物统计学杂志》的适当主题。本文代表对可以捍卫他们的东西的个人看法。10,11

我只提供有限的P值辩护。...”。

参考文献

1 Hald A. A history of probability and statistics and their appli- cations before 1750. New York: Wiley, 1990.
2 Shoesmith E, Arbuthnot, J. In: Johnson, NL, Kotz, S, editors. Leading personalities in statistical sciences. New York: Wiley, 1997:7–10. 
3 Bernoulli, D. Sur le probleme propose pour la seconde fois par l’Acadamie Royale des Sciences de Paris. In: Speiser D,
editor. Die Werke von Daniel Bernoulli, Band 3, Basle:
Birkhauser Verlag, 1987:303–26. 
4 Arbuthnot J. An argument for divine providence taken from
the constant regularity observ’d in the births of both sexes. Phil Trans R Soc 1710;27:186–90. 
5 Freeman P. The role of P-values in analysing trial results. Statist Med 1993;12:1443 –52. 
6 Anscombe FJ. The summarizing of clinical experiments by
significance levels. Statist Med 1990;9:703 –8.
7 Royall R. The effect of sample size on the meaning of signifi- cance tests. Am Stat 1986;40:313 –5.
8 Senn SJ. Discussion of Freeman’s paper. Statist Med
1993;12:1453 –8.
9 Gardner M, Altman D. Statistics with confidence. Br Med J
1989.
10 Matthews R. The great health hoax. Sunday Telegraph 13
September, 1998. 
11 Matthews R. Flukes and flaws. Prospect 20–24, November 1998.

@Martijn Weterings:“皮尔逊是1900年的复兴,还是这个(频率论)概念出现得较早?雅各布·伯努利是如何从频率论意义上或贝叶斯意义上考虑他的“黄金定理”的?还有更多资源)?

美国统计协会有一个关于统计历史的网页,该网页与该信息一起,贴有一个标题为“统计时间表”的海报(以下部分复制)。

  • 公元2:汉代完成的人口普查证据仍然存在。

  • 1500年代:吉罗拉莫·卡尔达诺(Girolamo Cardano)计算不同掷骰子的概率。

  • 1600年:埃德蒙·哈雷(Edmund Halley)将死亡率与年龄联系起来,并制定了死亡率表。

  • 1700年代:托马斯·杰斐逊(Thomas Jefferson)指导了第一批美国人口普查。

  • 1839年:美国统计协会成立。

  • 1894年:卡尔·皮尔森(Karl Pearson)引入了“标准偏差”一词。

  • 1935年:RA Fisher出版了《实验设计》。

统计的部分时间表

在Wikipedia网页“ 大数定律 ”的“历史记录”部分中,它说明:

“意大利数学家Gerolamo Cardano(1501-1576)陈述没有证据表明经验统计的准确性会随着试验次数的增加而提高。然后,这被正式化为大数定律。Jacob Bernoulli首先证明了一种特殊形式的LLN(用于二进制随机变量)。他花了20年的时间开发出足够严格的数学证明,并在1713年的Ars Conjectandi(猜想的艺术)中发表。他将其命名为“黄金定理”,但通常被称为“伯努利定理”。这不应与以雅各布·伯努利的侄子丹尼尔·伯努利命名的伯努利原则混淆。1837年,SD Poisson进一步以“ la loi des grands nombres”(“大数律”)的名称对其进行了描述。此后,这两种名称都为人所知,但“

在伯努利和泊松发表了他们的努力之后,其他数学家也为法律的完善做出了贡献,包括切比雪夫,马尔可夫,博雷尔,坎泰利和科莫格洛夫和欣钦。”


问题:“皮尔逊是第一个认识p值的人吗?”

不,可能不会。

Wasserstein and Lazar,doi:10.1080 / 00031305.2016.1154108撰写的“ ASA关于p值的声明:上下文,过程和目的 ”(2016年6月9日)中有关于p值定义的正式声明(毫无疑问,不是所有学科都同意使用或拒绝使用p值),其内容如下:

。什么是p值?

非正式地,p值是在指定的统计模型下数据的统计摘要(例如,两个比较组之间的样本均值差)等于或大于其观察值的概率。

3.原则

...

6.就其本身而言,p值不能很好地证明有关模型或假设的证据。

研究人员应认识到,没有上下文或其他证据的p值提供的信息有限。例如,p值本身接近0.05,仅提供了针对原假设的微弱证据。同样,相对较大的p值并不表示支持零假设的证据。许多其他假设可能与观察到的数据同等或更一致。由于这些原因,在其他方法适当可行的情况下,数据分析不应以p值的计算结束。”

否定假设的拒绝可能早在皮尔逊之前就已发生。

维基百科上有关无效假设检验的早期示例的页面:

零假设的早期选择

保罗·迈尔(Paul Meehl)认为,零假设的选择在认识论上的重要性在很大程度上尚未得到承认。当通过理论预测原假设时,更精确的实验将是对基础理论的更严格的检验。当零假设默认为“无差异”或“无影响”时,更精确的实验是对动机进行实验的理论的较不严格的检验。因此,检查后一种做法的起源可能是有用的:

1778年:皮埃尔·拉普拉斯(Pierre Laplace)比较了欧洲多个城市的男孩和女孩的出生率。他指出:“很自然地得出结论,这些可能性几乎是相同的。” 因此,拉普拉斯的零假设认为,在“传统智慧”的前提下,男孩和女孩的出生率应相等。

1900年:卡尔·皮尔森(Karl Pearson)开发了卡方检验,以确定“给定形式的频率曲线是否能有效描述从给定总体中抽取的样本”。因此,零假设是通过理论预测的某种分布来描述总体。他以Weldon掷骰数据中的数字5和6为例。

1904年:卡尔·皮尔森(Karl Pearson)提出了“偶然性”的概念,以确定结果是否独立于给定的分类因素。在这里,零假设默认为两件事无关(例如,疤痕形成和天花造成的死亡率)。在这种情况下,原假设不再由理论或常规智慧预测,而是成为无差别原则,导致费舍尔等人拒绝使用“逆概率”。

尽管有人拒绝了原假设,但我认为将其标记为“ 基于弱数学地位的怀疑论发现 ”是不合理的。


我一直在寻找Daniel Bernouilli的作品(第二版是1808年,但作品本身是1734年以来的作品)“巴黎皇家科学技术学院,皇家物理科学学院:Quelle est la计划解决方案是:在自动扶梯的基础上,在计划中解决方案,并在计划中解决方案 。 ch / zut / wihibe / content / titleinfo / 13426461
Sextus Empiricus

它提到了类似的可能性,即六个行星全部在17个扇形中的倾斜度相同,即。它是概率的计算,而不是p值。1:175
Sextus Empiricus
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.