Questions tagged «p-value»

在常识假设检验中, p-值是在假设无效的假设为真的情况下,结果大于或大于观察结果的概率。

3
解释xkcd软糖漫画:是什么使它有趣?
我看到一个超时它们运行的20次总的测试,,所以他们错误地认为,二十测试之一中,其结果是显著(0.05 = 1 / 20)。p&lt;0.05p&lt;0.05p < 0.050.05=1/200.05=1/200.05 = 1/20 xkcd果冻豆漫画-“重要” 标题:重要 悬停文字:“所以,呃,我们再次进行了绿色研究,但没有任何联系。这可能是-''研究发现冲突于绿色果冻豆/痤疮链接;建议进行更多研究!”

6
Fisher和Neyman-Pearson方法之间进行统计测试的“混合”真的是“不连贯的杂烩”吗?
存在某种思想流派,据此,最广泛的统计检验方法是两种方法之间的“混合”:费舍尔方法和内曼-皮尔森方法;声称,这两种方法是“不兼容的”,因此产生的“混合”是“不相干的杂烩”。我将在下面提供参考书目和一些引号,但就目前而言,在Wikipedia上有关统计假设检验的文章中已经写了很多。在简历上,@ Michael Lew反复提出了这一点(请参见此处和此处)。 我的问题是:为什么声称F和NP方法不兼容,为什么混合方法不连贯?请注意,我至少阅读了六篇反混合论文(请参阅下文),但仍然无法理解问题或论点。还请注意,我不建议讨论F还是NP是否是更好的方法。我也没有提出讨论常客与贝叶斯框架。相反,问题是:如果接受F和NP都是有效且有意义的方法,那么它们的混合到底有什么不好呢? 这是我对情况的了解。Fisher的方法是计算值,并将其作为反对原假设的证据。越小,证据越有说服力。研究人员应该将此证据与他的背景知识相结合,确定其是否足以令人信服,并据此进行研究。(请注意,费舍尔的观点多年来一直在变化,但这似乎是他最终收敛的。)相比之下,内曼·皮尔森的方法是提前选择,然后检查p α p ≤ αppppppαα\alphap ≤ αp≤αp\le\alpha; 如果是这样,则将其称为有意义的,并拒绝零假设(在此,我省略了与当前讨论无关的NP故事的大部分内容)。另请参见@gung在何时使用Fisher和Neyman-Pearson框架中的出色答复。 混合方法是计算值,将其报告(隐式假设值越小越好),如果(通常为),则结果也显着,否则为非显着性。这应该是不连贯的。同时击败两个合法的事情怎么可能是无效的。p ≤ α α = 0.05pppp ≤ αp≤αp\le\alphaα = 0.05α=0.05\alpha=0.05 由于特别不连贯,抗杂交主义者认为报告的普遍做法是,或(甚至),其中总是选择最强的不等式。该论点似乎是:(a)由于没有报告确切的而无法正确评估证据的强度,(b)人们倾向于将不等式中的右手数字解释为并将其视为I型错误。率,那是错误的。我在这里看不到大问题。首先,报告精确的当然是更好的做法,但是没有人真正关心是否为或p &lt; 0.05 p &lt; 0.01 p &lt; 0.001 p « 0.0001 p α p p 0.02 0.03 〜0.0001 0.05 α = 0.05 p ≠ α αpppp &lt; …

9
如何在lme4混合模型中获得效果的p值(检查显着性)?
我在R中使用lme4来适应混合模型 lmer(value~status+(1|experiment))) 价值是连续的,状态和实验是因素,我得到 Linear mixed model fit by REML Formula: value ~ status + (1 | experiment) AIC BIC logLik deviance REMLdev 29.1 46.98 -9.548 5.911 19.1 Random effects: Groups Name Variance Std.Dev. experiment (Intercept) 0.065526 0.25598 Residual 0.053029 0.23028 Number of obs: 264, groups: experiment, 10 Fixed effects: Estimate …

4
卡明(2008)声称,复制过程中获得的p值的分布仅取决于原始p值。怎么可能是真的?
我一直在阅读杰夫·卡明(Geoff Cumming)在2008年发表的论文《复制和区间:值只是模糊地预测未来,但置信区间的确好得多》pppppp (《 Google学术搜索》中的〜200篇引文),并且被其核心观点之一所迷惑。这是卡明(Cumming)反对并主张置信区间的一系列论文之一。但是,我的问题与这场辩论无关,仅涉及关于一项具体主张。pppppp 让我引用摘要: 本文显示,如果初始实验的结果是两尾,则复制中 的单尾值有机会落在区间,的机会,,充分一个的机会。值得注意的是,该间隔(称为间隔)是如此之大,无论样本大小如何。p=.05p=.05p= .0580%80%80\%ppp(.00008,.44)(.00008,.44)(.00008, .44)10%10%10\%p&lt;.00008p&lt;.00008p < .0000810%10%10\%p&gt;.44p&gt;.44p > .44ppp 卡明(Cumming)声称,此“区间”以及实际上在复制原始实验(具有相同的固定样本大小)时将获得的的整个分布仅取决于原始值和不依赖于真实效果尺寸,功率,样本大小,或其他任何东西:ppppppppppobtpobtp_\mathrm{obt} 可以推导的概率分布,而无需知道或假设(或幂)的值。[...]我们不假设任何有关先验知识,而仅使用信息 [观察到的组间差异]给出了作为给定的计算基础和间隔的分布的 。pppδδ\deltaδδ\deltaMdiffMdiffM_\mathrm{diff}δδ\deltapobtpobtp_\mathrm{obt}pppppp \quad\quad\quad 我对此感到困惑,因为在我看来,的分布很大程度上取决于幂,而原始本身并没有提供任何有关幂的信息。实际效果大小可能是,然后分布是均匀的;或真实效果的大小可能很大,那么我们应该期望大多数很小。当然,可以先假设一些可能的效果大小并对其进行积分,但是卡明似乎声称这不是他正在做的事情。ppppobtpobtp_\mathrm{obt}δ=0δ=0\delta=0ppp 问题:这到底是怎么回事? 请注意,此主题与以下问题有关:重复实验的哪个部分在第一个实验的95%置信区间内将具有影响大小?@whuber提供了一个很好的答案。卡明(Canmming)对此主题发表了一篇论文,内容为:卡明(Cumming)和Maillardet,2006年,置信区间和复制:下一个均值将落在哪里?-但是这一点很明确,没有问题。 我还注意到,卡明的主张在2015年《自然方法》论文中被重复了好几次。善变的值会产生PPP某些人可能遇到的不可再现的结果(在Google学术搜索中已被引用约100次): 重复实验的值将有很大变化。实际上,很少重复进行实验。我们不知道下一个可能有多大差异。但它可能会大不相同。例如,不管实验的统计能力如何,如果单次重复实验的值为,则重复实验返回值在到之间的可能性为(变化为(原文如此,会更大)。PPPPPPPPP0.050.050.0580%80%80\%PPP0000.440.440.4420%20%20\%PPP (请注意,顺便说一下,怎么样,不管卡明的说法是否正确,自然的方法报导援引它不准确:根据卡明,它只有以上的概率。是的,纸张也说:“20%CHAN g e“。Pfff。)10%10%10\%0.440.440.44

5
“ p值”的正确拼写(大写,斜体,连字符)吗?
我意识到这是古怪而陈腐的,但是作为统计学之外的领域的研究人员,由于统计学方面的正规教育有限,我总是想知道我是否正确地编写了“ p值”。特别: “ p”应该大写吗? “ p”是否应该斜体显示?(或以数学字体显示在TeX中?) 在“ p”和“值”之间应该有连字符吗? 或者,根本没有“ p”值的“正确”写法,如果我只是在这些选项的某些排列中将“ p”放在“ value”旁边,那么任何理解都会理解我的意思吗?

4
在t检验中根据t值手动计算P值
我有一个31个值的样本数据集。我使用R进行了两尾t检验,以检验真实均值是否等于10: t.test(x=data, mu=10, conf.level=0.95) 输出: t = 11.244, df = 30, p-value = 2.786e-12 alternative hypothesis: true mean is not equal to 10 95 percent confidence interval: 19.18980 23.26907 sample estimates: mean of x 21.22944 现在,我正在尝试手动执行相同的操作: t.value = (mean(data) - 10) / (sd(data) / sqrt(length(data))) p.value = dt(t.value, df=length(lengths-1)) 使用此方法计算的t值与t检验R函数的输出相同。但是,p值为3.025803e-12。 …


3
在多元回归模型中具有相关的预测变量有什么影响?
我在线性模型课程中了解到,如果两个预测变量相关,并且两个预测变量都包含在模型中,那么一个预测变量将是不重要的。例如,假设房屋的大小和卧室的数量是相关的。当使用这两个预测器预测房屋成本时,可以放弃其中一个,因为它们都提供了大量相同的信息。从直觉上讲,这是有道理的,但是我还有一些技术问题: 当仅在模型中包含一个或两个预测变量时,这种影响如何在回归系数的p值中体现出来? 通过在模型中包括两个预测变量或仅包含一个预测变量,如何影响回归系数的方差? 我怎么知道模型将选择不太重要的预测变量? 仅包含一个或两个预测变量如何改变我的预测成本的价值/差异?

3
合并p值时,为什么不平均呢?
我最近了解了费舍尔组合p值的方法。这是基于该空下p值遵循均匀分布,并且该事实 ,我认为是天才。但是我的问题是为什么要走这种令人费解的方式?为什么不使用p值的均值并使用中心极限定理(这有什么问题)?或中位数?我试图了解RA费舍尔这个宏伟计划背后的天才。− 2 ∑我= 1ñ日志X一世〜χ2(2 n ), 给定 X〜UNIF (0 ,1 )−2∑i=1nlog⁡Xi∼χ2(2n), given X∼Unif(0,1)-2\sum_{i=1}^n{\log X_i} \sim \chi^2(2n), \text{ given } X \sim \text{Unif}(0,1)

9
人们为什么使用p值而不是计算给定数据的模型概率?
粗略地说,p值给出了在给定假设(模型)的情况下观察到的实验结果的概率。有了这个概率(p值),我们想判断我们的假设(可能性有多大)。但是,鉴于观察到的结果,计算假设的概率不是更自然吗? 在更多细节。我们有一枚硬币。我们翻转它20次,得到14个头(20个中的14个是我所说的“实验结果”)。现在,我们的假设是硬币是公平的(头和尾的概率彼此相等)。现在,我们计算p值,该值等于在20次硬币翻转中获得14个或更多正面的概率。好的,现在我们有了这个概率(0.058),我们想用这个概率来判断我们的模型(我们有一个公平的硬币的可能性如何)。 但是,如果我们想估计模型的概率,为什么不给定实验就计算模型的概率呢?为什么在给定模型(p值)的情况下计算实验的概率?

2
A / B测试:z检验,t检验,卡方检验和fisher精确检验
我试图通过在处理简单的A / B测试时选择一种特定的测试方法来理解其原因-(例如,两个具有二进制响应的变体/组(已转换或未转换)。作为示例,我将使用以下数据 Version Visits Conversions A 2069 188 B 1826 220 此处的最高答案很好,并讨论了z,t和卡方检验的一些基本假设。但是令我感到困惑的是,不同的在线资源会引用不同的方法,您会认为基本A / B测试的假设应该几乎相同吗? 例如,本文使用z-score: 本文使用以下公式(我不确定它是否与zscore计算不同?): 本文引用了t检验(p 152): 那么,对于这些不同的方法,可以提出哪些主张呢?为什么会有一个偏好? 要增加一个候选者,可以将上面的表重写为2x2列联表,其中可以使用Fisher精确检验(p5) Non converters Converters Row Total Version A 1881 188 2069 Versions B 1606 220 1826 Column Total 3487 408 3895 但是,根据该线索, fisher的精确测试应仅在较小的样本量下使用(临界值是多少?) 然后有成对的t和z检验,f检验(以及逻辑回归,但我现在暂时不考虑)。在这个简单的A / B测试案例中,对不同方法进行某种论证。 使用示例数据,我得到以下p值 https://vwo.com/ab-split-test-significance-calculator/给出0.001的p值(z得分) http://www.evanmiller.org/ab-testing/chi-squared.html(使用卡方检验)得出的p值为0.00259 在R中fisher.test(rbind(c(1881,188),c(1606,220)))$p.value给出p值为0.002785305 …

6
效应大小作为重要性检验的假设
今天,在交叉验证期刊俱乐部(为什么不在那里?),@ mbq问: 您认为我们(现代数据科学家)知道重要性意味着什么吗?以及它如何关系到我们对结果的信心? @Michelle回答说(包括我在内)通常会这样做: 随着我继续职业生涯,发现重要性概念(基于p值)的帮助越来越少。例如,我可以使用非常大的数据集,因此所有数据在统计上都是有意义的(p&lt;.01p&lt;.01p<.01) 这可能是一个愚蠢的问题,但这不是检验假设的问题吗?如果您检验零假设“ A等于B”,那么您知道答案是“否”。更大的数据集只会使您更接近这个不可避免的真实结论。我相信正是戴明(Deming)曾经举过一个假设的例子:“羔羊右侧的头发数量等于其左侧的头发数量”。好吧,当然不是。 更好的假设是“ A与B的相差不大。” 或者,在羔羊示例中,“羔羊侧面的毛发数量相差不超过X%”。 这有意义吗?

5
p值本质上是无用的且使用危险吗?
纽约时报的这篇文章“ 赔率,不断更新”引起了我的注意。简而言之,它指出 [贝叶斯统计]已证明在解决复杂问题时特别有用,包​​括像海岸警卫队在2013年使用的搜索来寻找失踪的渔夫约翰·奥尔德里奇(尽管到目前为止,在寻找马来西亚航空370号班机的过程中)。 ......,从物理学到癌症研究,从生态学到心理学,贝叶斯统计数据遍地开花... 在这篇文章中,还对常客的p值提出了一些批评,例如: 如果p值小于5%,则通常认为结果具有“统计学意义”。哥伦比亚大学统计学教授安德鲁·盖尔曼(Andrew Gelman)表示,但是这种传统存在危险。即使科学家总是正确地进行了计算(但他们没有这样做),接受p值为5%的所有内容也意味着20个“具有统计意义”的结果只是随机噪声。 除上述之外,也许最著名的批评p值的论文就是《自然方法》一书,作者是Regina Nuzzo的《科学方法:统计误差》,其中讨论了许多由p值方法引起的科学问题,例如重现性问题, p值骇客等 P值是统计有效性的“黄金标准”,不像许多科学家所认为的那样可靠。……也许最糟糕的谬论是自欺欺人,宾夕法尼亚大学的心理学家乌里·西蒙索恩(Uri Simonsohn)及其同事已经普及了“ P-hacking”一词。它也被称为数据挖掘,侦听,钓鱼,重要性追踪和两次浸渍。Simonsohn说:“ P黑客正在尝试多种方法,直到获得期望的结果为止”,甚至是在不知不觉中。......……“这一发现似乎是通过p-hacking获得的,作者放弃了其中一个条件,以使整体p值小于.05”,而“她是p-hacker,她总是在收集数据时监视数据。” 另一件事是一个有趣的情节从下面这里,有关剧情的评论: 无论您的影响有多小,您都可以始终努力收集数据以超过p &lt;.05的阈值。只要不存在您要研究的影响,p值就可以衡量您为收集数据付出了多少努力。 综上所述,我的问题是: 第二段引文中的安德鲁·盖尔曼的论点到底意味着什么?他为什么将5%的p值解释为“ 20个具有统计学意义的结果中有1个是随机噪声”?我不相信,因为对我而言,p值可用于一项研究的推断。他的观点似乎与多重测试有关。 更新:有关此内容,请查看安德鲁·盖尔曼(Andrew Gelman)的博客:不,我没有这么说!(提供给@ Scortchi,@ whuber)。 CpCpC_p 是否有使用p值进行统计分析的良好实践指导,可以得出更可靠的研究结果? 正如某些统计学家所倡导的那样,贝叶斯建模框架会是更好的方法吗?具体来说,贝叶斯方法是否更有可能解决错误的发现或处理数据问题?由于先验在贝叶斯方法中非常主观,因此我在这里也不确信。是否有任何实践和知名的研究表明贝叶斯方法比常客的p值更好,或者至少在某些特定情况下,这种观点更好? 更新:对于是否存在贝叶斯方法比常客主义的p值方法更可靠的情况,我将特别感兴趣。“可靠”是指贝叶斯方法不太可能操纵数据以获得所需结果。有什么建议么? 更新6/9/2015 刚注意到这个消息,并认为将其放在此处进行讨论会很好。 心理学杂志禁止P值 一项有争议的统计测试终于结束了,至少在一本期刊上如此。本月初,《基本与应用社会心理学》(BASP)的编辑宣布该期刊将不再发表包含P值的论文,因为统计数据经常被用来支持低质量的研究。 与最近的论文一起,《自然》杂志关于“ P值”的“善变的P值产生了无法再现的结果”。 更新5/8/2016 早在三月,美国统计协会(ASA)就统计意义和p值发布了声明,“ .... ASA声明旨在将研究引导到'p &lt;0.05后时代'。” 该语句包含6条解决p值滥用的原则: P值可以指示数据与指定的统计模型不兼容的程度。 P值不能衡量所研究假设为真的概率,也不能衡量仅由随机机会产生数据的概率。 科学结论和业务或政策决策不应仅基于p值是否超过特定阈值。 正确的推理需要完整的报告和透明度。 p值或统计显着性不能衡量效果的大小或结果的重要性。 就其本身而言,p值不能很好地证明有关模型或假设的证据。 详细信息: “ ASA关于p值的声明:上下文,过程和目的”。

3
假设检验中p值的解释
我最近碰到了杰夫·吉尔(Jeff Gill)(1999)的论文“零假设假设意义检验的无意义”。作者对假设检验和p值提出了一些常见的误解,对此我有两个具体问题: p值从技术上讲是,正如论文所指出的,通常不会告诉我们有关,除非我们碰巧知道边际分布,否则在“日常”假设检验中很少出现这种情况。当我们获得一个小的p值并“拒绝原假设”时,由于我们无法说出有关任何信息,我们正在做的概率陈述到底是什么?P (H ^ 0 | ö b 小号Ë - [R v 一个吨我ö Ñ)P (H ^ 0 | ö b 小号Ë - [R v 一个吨我ö Ñ)P(observation|H0)P(observation|H0)P({\rm observation}|H_{0})P(H0|observation)P(H0|observation)P(H_{0}|{\rm observation})P(H0|observation)P(H0|observation)P(H_{0}|{\rm observation}) 第二个问题与论文第6(652)页的特定陈述有关: 由于没有事先设定p值或星号指示的p值范围,因此它不是产生I型错误的长期可能性,而是通常被视为此类错误。 任何人都可以帮助解释此声明的含义吗?

2
人为全球变暖的证据达到“黄金标准”:他们是如何做到的?
Reuter在2019年2月25日发表的文章中的这一消息目前已成为新闻: 人为全球变暖的证据达到“黄金标准” [科学家]说,人们对人类活动正在升高地球表面的热量的信心达到了“五西格玛”水平,这是一个统计量表,这意味着只有在这种情况下,如果存在没有变暖。 我相信这是指本文“庆祝气候变化科学三大关键事件的周年纪念日”,其中包含一个图,如下图所示(这是一个草图,因为我找不到原始的,类似的开源图像免费图片在这里找到)。来自同一研究小组的另一篇文章似乎是更原始的来源(此处使用1%的有效度而不是)。5个σ5σ5\sigma 该图显示了三个不同研究组的测量结果:遥感系统,卫星应用和研究中心以及位于汉斯维尔的阿拉巴马大学。 该图显示了信噪比随趋势长度变化的三个上升曲线。 所以,在某种程度上科学家在测量了全球变暖(或气候变化?)的人为信号水平,这显然是一些证据的科学标准。5个σ5σ5\sigma 对我来说,这样的图具有很高的抽象水平,它引发了许多问题,并且总的来说,我对“他们是如何做到的?”这个问题感到好奇。。我们如何用简单的单词(不是那么抽象)来解释这个实验,又如何解释级别的含义?††^{\dagger}5个σ5σ5\sigma 我在这里问这个问题是因为我不想讨论气候。相反,我想要有关统计内容的答案,尤其是要弄清楚使用/声明的语句的含义。5个σ5σ5 \sigma ††^\dagger什么是原假设?他们如何设置实验以获得人为信号?信号的影响大小是多少?只是一个很小的信号,而我们现在只是因为噪声在减小而测量,还是信号在增大?为创建统计模型做出什么样的假设,通过它们它们可以确定5 sigma阈值的交叉点(独立性,随机效应等)?为什么不同研究组的三个曲线不同,它们具有不同的噪声还是具有不同的信号?对于后者,对于概率和外部有效性的解释意味着什么?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.