Questions tagged «p-value»

在常识假设检验中, p-值是在假设无效的假设为真的情况下,结果大于或大于观察结果的概率。

16
统计测试中p值和t值的含义是什么?
在修完统计学课程,然后试图帮助同学后,我注意到一个启发很多总部敲门鼓的科目正在解释统计学假设检验的结果。看来学生很容易学习如何执行给定测试所需的计算,但是却迷上了解释结果的过程。许多计算机化工具以“ p值”或“ t值”报告测试结果。 您如何向大学生学习统计学第一门课程解释以下几点: “ p值”相对于要检验的假设是什么意思?在某些情况下应该寻找高p值或低p值吗? p值和t值之间是什么关系?

6
为什么在原假设下p值均匀分布?
最近,我发现在Klammer等人的论文中。p值应均匀分布的声明。我相信作者,但不明白为什么会这样。 Klammer,AA,Park,CY和Stafford Noble,W.(2009)SEQUEST XCorr函数的统计校准。蛋白质组研究杂志。8(4):2106-2113。
115 p-value  uniform 

8
ASA讨论了限制-有哪些替代方案?
我们已经有多个线程标记为p值,这些线程揭示了许多关于它们的误解。十个月前,我们有一个线程关于心理杂志,“禁止” -值ppp p,现在美国统计协会(2016)指出,与我们的分析,我们“不应该用的计算结束 -值”。ppp 美国统计协会(ASA)认为,科学界可以从一份正式声明中受益,该声明阐明了一些正确使用和解释值的公认原则。ppp 该委员会列出了其他方法作为可能替代或补充:ppp 鉴于普遍存在对误用和误解 ,一些统计学家倾向于用其他方法来补充甚至替代 。这些方法包括强调评估而不是测试的方法,例如置信度,可信度或预测间隔;贝叶斯方法;替代的证据度量,例如似然比或贝叶斯因子;以及其他方法,例如决策理论建模和错误发现率。所有这些措施和方法都依赖于进一步的假设,但它们可能更直接地解决效应的大小(及其相关的不确定性)或假设是否正确。 ppppppp 因此,让我们想象一下后的现实。ASA列出了一些可以代替,但是为什么它们更好?对于一生使用的研究人员,其中哪一个可以代替他?我想,这样的问题会出现在后 -值的现实,所以也许我们尽量在他们面前的一个步骤。可以直接使用的合理替代方法是什么?为什么这种方法应该说服您的首席研究员,编辑或读者?p p ppppppppppppp 正如此后续博客条目所建议的那样,在其简单性方面无与伦比:ppp p值只需要一个统计模型,即可统计要保留的原假设下的统计行为。即使使用替代假设的模型来选择“良好”统计量(将用于构造p值),该替代模型也不必正确才能使p值有效,并且有用(即:控制I型错误在期望的水平上,同时提供检测实际效果的能力)。相比之下,其他(出色且有用的)统计方法(如似然比,效果大小估计,置信区间或贝叶斯方法)都需要假定的模型来保持更广泛的情况,而不仅是在经过测试的零值下。 是它们,还是不正确,我们可以轻松地替换它们? 我知道,这是广义的,但主要问题很简单:什么是可以替代的值的最佳(以及为什么)现实生活中的替代方法?ppp ASA(2016)。ASA关于统计意义和声明。PPP 美国统计学家。(在新闻)

9
p值真的是这样工作吗?每年一百万篇研究论文是否可以基于纯粹的随机性?
我是统计学的新手,我只是在学习理解基本知识,包括。但是我现在脑子里有一个很大的问号,我希望我的理解是错误的。这是我的思考过程:ppp 并非全世界的研究都像“无限猴子定理”中的猴子一样吗?考虑世界上有23887所大学。如果每所大学有1000名学生,那么每年就是2300万学生。 假设每个学生每年使用假设检验进行至少一项研究。α = 0.05α=0.05\alpha=0.05 这并不意味着即使所有研究样本都是从随机种群中抽取的,其中约有5%会“拒绝原假设为无效”。哇。考虑一下。由于“显着”的结果,每年大约有一百万篇研究论文发表。 如果它是这样工作的,那就太恐怖了。这意味着我们理所当然的许多“科学真理”都是基于纯粹的随机性。 一个简单的R代码块似乎支持我的理解: library(data.table) dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value)) dt[p<0.05,] 那么,这条成功的 -fishing:我骗了数以百万计,以为巧克力有助于减肥。这是方法。ppp 这真的就是全部吗?这是“科学”应该如何起作用的吗?

2
我们对“野外” p黑客了解多少?
短语“ p- hacking”(也称为“数据挖掘”,“监听”或“钓鱼”)是指各种统计不良行为,其结果在人工上具有统计学意义。有许多方法可以取得“更重要的”结果,包括但绝不限于: 仅分析发现模式的数据的“有趣”子集; 未针对多项测试进行适当调整,尤其是事后测试,并且未报告所进行的无关紧要的测试; 尝试对同一假设进行不同的检验,例如参数检验和非参数检验(此线程对此进行了一些讨论),但仅报告了最重要的检验; 试验数据点的包含/排除,直到获得所需的结果。一个机会来自“数据清理异常值”,但也适用于模棱两可的定义(例如在对“发达国家”的计量经济学研究中,不同的定义产生了不同的国家集)或定性的纳入标准(例如在荟萃分析中) ,某个特定研究的方法是否足够健壮到可以包括在内可能是一个很好的平衡论点); 前面的示例与可选停止有关,即,分析数据集并根据到目前为止收集的数据来决定是否收集更多数据(“这几乎是重要的,让我们再测量三名学生!”),而无需对此进行考虑。在分析中; 模型拟合期间的实验,尤其是要包含的协变量,还涉及数据转换/功能形式。 因此,我们知道可以进行p- hacking。它经常被列为“ p值的危险”之一,并且在ASA报告中提到了具有统计意义的意义,在此处通过Cross Validated进行了讨论,因此我们也知道这是一件坏事。尽管有一些可疑的动机和(特别是在学术出版物竞争中)适得其反的动机,但我怀疑无论是故意的渎职行为还是简单的无知,都很难弄清楚这样做的原因。有人从逐步回归中报告p值(因为他们发现逐步过程“产生了良好的模型”,但没有意识到所谓的p-values无效)位于后一个阵营中,但在上面我最后一个要点下,效果仍然是p -hacking。 当然,有证据表明p- hacking已经“存在”,例如Head等人(2015年)正在寻找能够感染科学文献的明显迹象,但是我们目前的证据基础是什么?我知道,Head等人采取的方法并非没有争议,因此,当前的文学状态或学术界的一般思维将很有趣。例如,我们是否有以下想法: 它的流行程度如何,以及在多大程度上可以将它的出现与出版偏见区分开来?(这种区别甚至有意义吗?) 在边界处,效果是否特别严重?例如,是否在处看到了类似的效果,还是我们看到p值的整个范围都受到影响?p ≈ 0.01p ≈ 0.05p≈0.05p \approx 0.05p ≈ 0.01p≈0.01p \approx 0.01 p- hacking的模式在各个学术领域是否有所不同? 我们是否知道p- hacking的哪种机制最常见(上面的要点中列出了其中的一些机制)?是否已证明某些形式比“其他形式”更难发现? 参考文献 负责人ML,Holman,L.,Lanfear,R.,Kahn,AT,&Jennions,MD(2015)。p- hacking在科学领域的范围和后果。PLoS Biol,13(3),e1002106。


3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

4
心理学杂志禁止使用p值和置信区间;停止使用它们确实明智吗?
2015年2月25日,《基本与应用社会心理学》杂志 发表社论,禁止所有未来论文发表和置信区间。ppp 他们具体说(格式和重点是我的): [...]在发表之前,作者将必须删除NHSTP [无效假设重要性检验程序]的所有痕迹(,,,有关“重大”差异的陈述或缺乏它们的陈述) , 等等)。ppptttFFF 类似于NHSTP如何无法提供原假设的概率(需要为原假设提供强有力的条件来拒绝它),置信区间并不能为推断所关注的总体参数可能在规定范围内提供强有力的条件。间隔。因此,BASP也禁止置信区间。 [...]关于贝叶斯程序,我们保留根据具体情况做出判断的权利,因此,BASP也不要求也不禁止贝叶斯程序。 [...]是否需要任何推论统计程序?- 否,但是,BASP将需要强大的描述性统计数据,包括效应量。 让我们在这里不讨论问题和滥用。浏览p值标记可以找到很多有关CV的精彩讨论。对的批判常常与建议一起报告感兴趣参数的置信区间有关。例如,在这个非常有争议的答案中, @ gung建议以周围的置信区间来报告效果大小。但是该杂志也禁止置信区间。pppppp 与采用,置信区间和显着/无关紧要的二分法的“传统”方法相比,这种呈现数据和实验结果的方法的优缺点是什么?对该禁令的反应似乎主要是消极的。那有什么缺点呢?美国统计协会甚至对该禁令发表了简短的令人沮丧的评论,称“该政策可能有其自身的负面影响”。这些负面后果可能是什么?ppp 还是正如@whuber建议的那样,这种方法是否应该被普遍提倡为定量研究的范例?如果没有,为什么不呢? PS。请注意,我的问题与禁令本身无关;这是关于建议的方法。我也不是在问频率论者和贝叶斯论者。《社论》对贝叶斯方法也相当否定。因此本质上是关于使用统计信息与根本不使用统计信息。 其他讨论:reddit,Gelman。

4
何时使用Fisher和Neyman-Pearson框架?
最近,我一直在阅读很多有关Fisher假设检验方法和Neyman-Pearson思想流派之间的差异的信息。 我的问题是,暂时忽略哲学上的反对意见。什么时候应该使用Fisher的统计建模方法,什么时候应该使用显着性水平等的Neyman-Pearson方法?是否有一种实用的方法来决定在任何给定的实际问题中应支持哪种观点?

3
这是p值问题的解决方案吗?
2016年2月,美国统计协会发布了有关统计意义和p值的正式声明。关于它的主题我们广泛讨论了这些问题。但是,到目前为止,还没有任何权威机构提供公认的有效替代方案。美国统计学会(ASS)发布了其回应p值:下一步是什么? “ p值并不能带来太多好处。” 我们认为ASA还远远不够。现在该承认p值时代已经结束。统计学家已经成功地使用它们来迷惑大学生,欺骗科学家和愚蠢的编辑,但是全世界已经开始看到这种诡计。我们需要放弃20世纪初统计学家控制决策的尝试。我们需要回到实际起作用的地方。 ASS的官方建议是这样的: ASS代替p值,提倡使用STOP (SeaT-Of-Pant程序)。这种久经考验的方法被古希腊人,文艺复兴时期的人以及所有科学家使用,直到罗纳德·费舍尔(Ronald Fisher)出现并破坏了事物。STOP是简单,直接,数据驱动且权威的。为此,要有权威人士(最好是年长的男性)查看数据并决定他们是否同意他的观点。当他决定这样做时,结果将是“显着的”。否则,结果就不那么重要了,每个人都必须忘记整个事情。 原则 回应涉及ASA的六项原则。 STOP可以指示数据与指定的统计模型不兼容的程度。 我们喜欢这个短语,因为它是STOP回答是或否的任何一种奇妙的方式。与p值或其他统计程序不同,这毫无疑问。对于那些说“我们不需要没有臭”的原假设的人来说,这是一个完美的答案!**!@是什么呢?没有人能弄清楚它应该是什么。” STOP不能衡量假设成立的可能性:它实际上决定了该假设成立与否。 每个人都对概率感到困惑。通过将可能性排除在外,STOP消除了多年的本科生和研究生学习的需要。现在,任何人(年龄足够大且男性)都可以执行统计分析,而无需听一次单独的统计讲座或运行奥秘的软件(产生难以理解的输出)的痛苦和折磨。 科学结论和业务或政策决策可以基于常识和真实权威数字。 无论如何,重要的决定总是由当局做出的,所以让我们承认这一点并削减中间商。使用STOP将使统计人员自由地做他们最适合的工作:使用数字来掩盖事实真相并使当权者的偏好成圣。 正确的推理需要完整的报告和透明度。 STOP是有史以来发明的最透明和不言而喻的统计程序:您查看数据并做出决定。它消除了人们用来掩盖自己不知道数据含义的事实的所有那些令人困惑的z检验,t检验,卡方检验和字母汤程序(ANOVA!GLM!MLE!)。 STOP衡量结果的重要性。 这是不言而喻的:如果当权者使用STOP,那么结果必须很重要。 STOP本身就提供了有关模型或假设的良好证据。 我们不想挑战一个权威,是吗?研究人员和决策者将认识到STOP提供了他们需要知道的所有信息。由于这些原因,数据分析可以以STOP结尾;无需其他方法,例如p值,机器学习或占星术。 其他方法 一些统计学家偏爱所谓的“贝叶斯”方法,该方法不加思索地应用由18世纪牧师死后发表的晦涩定理来解决所有问题。其最著名的拥护者自由地承认这些方法是“主观的”。如果我们要使用主观方法,那么显然决策者越权威和知识渊博,结果就会越好。因此,STOP成为所有贝叶斯方法的逻辑极限。当您可以只向负责人显示数据并询问他的意见时,为什么还要花大量的时间计算这些可怕的计算呢?故事结局。 最近出现了另一个社区来挑战统计学家的神职人员。他们称自己为“机器学习者”和“数据科学家”,但实际上他们只是寻求更高地位的黑客。如果这些人希望人们认真对待他们,这就是ASS的官方立场。 问题 这是否是ASA用p值和无效假设检验确定的问题的答案?它真的可以统一贝叶斯和频繁主义范式(在响应中隐式声明)吗?

8
有一个很好的,令人信服的示例,其中p值很有用?
标题中的问题是不言而喻的,但我想提供一些背景信息。 ASA在本周早些时候发布了“ 关于p值:上下文,过程和目标 ”的声明,概述了对p值的各种常见误解,并敦促在没有上下文和思想的情况下不要使用它(可以这样说)。任何统计方法,真的)。 为了回应ASA,马特洛夫(Matloff)教授写了一篇博客文章:150年后,ASA对p值表示否。然后,本杰米尼(Benjamini)教授(和我)写了一篇题为“ 这不是p值的过错 –对最近ASA声明的反思”的回复。作为回应,马特洛夫教授在后续帖子中问: 我想看到的是一个很好的,令人信服的示例,其中p值很有用。那确实是底线。 要引用他的两个主要论点反对的用处 -值:ppp 对于大样本,显着性检验是针对原假设的微小,不重要的偏离而发动的。 在现实世界中,几乎没有零假设是真实的,因此对它们进行显着性检验是荒谬而离奇的。 我对其他经过交叉验证的社区成员对这个问题/论点的看法以及对它的良好回应感到非常感兴趣。

3
包含反对无效假设重要性检验的论点的参考文献?
在过去的几年中,我阅读了许多反对在科学中使用零假设重要性检验的论文,但并不认为要保留一个持久的清单。一位同事最近要求我提供这样的列表,所以我想我要请这里的所有人来帮助构建它。首先,这是我到目前为止的事情: Johansson(2011)“向不可能的事物致敬:p值,证据和可能性。” Haller&Kraus(2002)“对意义的误解:学生与老师分享的一个问题。” Wagenmakers(2007)“解决普遍存在的p值问题的实用解决方案。” Rodgers(2010)“数学和统计建模的认识论:一场安静的方法论革命”。 Dixon(1998)“为什么科学家重视p值。” Glover&Dixon(2004)“似然比:经验心理学家的简单而灵活的统计数据。”

4
如何报告微小的
对于在某些测试中R,存在对一个下限p值的计算2.22 ⋅ 10− 162.22⋅10-162.22 \cdot 10^{-16}。我不确定为什么是这个数字,是否有充分的理由,或者它是任意的。许多其他统计信息包都可以使用0.0001,因此精度更高。但是我没有看到太多的论文报告或。p &lt; 2.22 ⋅ 10− 16p&lt;2.22⋅10-16p < 2.22\cdot 10^{-16}p = 2.22 ⋅ 10− 16p=2.22⋅10-16p = 2.22\cdot 10^{-16} 报告此计算值是常见/最佳做法,还是报告其他内容(例如p &lt; 0.000000000000001)更典型?

10
“科学家奋起反抗统计意义”是什么意思?(自然评论)
《自然科学家评论》的标题与统计意义背道而驰,其开头为: 瓦伦丁·阿姆海因(Valentin Amrhein),桑德·格陵兰(Sander Greenland),布莱克·麦克沙恩(Blake McShane)和800多个签署国呼吁结束大肆宣传的主张,并取消可能产生的关键影响。 稍后包含如下语句: 再一次,我们不主张禁止使用P值,置信区间或其他统计指标,而只是禁止对它们进行分类。这包括在统计上是否有意义的二分法,以及基于其他统计量(例如贝叶斯因子)的分类。 我想我可以理解,下面的图像并不表示这两项研究不同意,因为其中一项“排除”了无效,而另一项则没有。但是这篇文章似乎比我理解的要深入得多。 到最后,似乎有四个要点。对于那些阅读统计数据而不是编写统计数据的人来说,是否可以用更简单的术语来概括这些内容? 在谈论兼容性间隔时,请记住四件事。 首先,仅在给出假设的前提下,因为间隔给出的值与数据最兼容,这并不意味着其外的值是不兼容的。他们只是不太兼容... 其次,在给定假设的情况下,并非内部的所有值都与数据同等兼容... 第三,就像它产生的0.05阈值一样,用于计算间隔的默认95%本身就是一个任意约定... 最后,也是最重要的一点,要谦虚:兼容性评估取决于用于计算间隔的统计假设的正确性...


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.