Questions tagged «statistical-significance»

统计显着性是指如果在抽取此样本的总体中真实效果为0(或某个假设值)的概率可能会发生比样本中的极端高或更高的测试统计。

4
是否有测试来确定GLM过度分散是否显着?
我正在R中创建Poisson GLM。要检查是否存在过度分散,我正在研究剩余偏差与所提供的自由度的比率summary(model.name)。 是否有一个临界值或检验此比率被认为是“重要的”?我知道如果> 1,那么数据就会分散,但是如果我的比率相对接近1(例如,一个比率为1.7(残差= 25.48,df = 15),另一个比率为1.3(rd = 324,df) = 253)],我还是应该切换到拟泊松/负二项式?我在这里发现此测试的意义:1-pchisq(residual deviance,df),但是我只看过一次,这让我感到紧张。我还读到(找不到源),比率<1.5通常是安全的。意见?

10
为什么千分之六的说服力比十分之六的说服力更强?
请参阅Stella Cottrell撰写的“学习技巧手册”(帕拉格雷夫,2012年)第155页的摘录: 百分比给出百分比时请注意。 假设上面的语句改为: 60%的人更喜欢橘子;40%的人说他们更喜欢苹果。 这看起来很有说服力:给出了数量。但是60%和40%之间的差异显着吗?在这里,我们需要知道有多少人被问到。如果要问1000个人中谁喜欢600个橘子,这个数字很有说服力。但是,如果仅询问10个人,则60%的回答仅表示6个人更喜欢橙子。“ 60%”听起来令人信服,而“十分之六”则无法令人信服。作为重要的读者,您需要警惕用于使不足的数据令人印象深刻的百分比。 统计学中这种特征是什么?我想了解更多。

4
创建模型时,是否应保留“没有统计学意义的协变量”?
我在模型的计算中有几个协变量,但并不是所有协变量都具有统计学意义。我应该删除那些不是吗? 这个问题讨论了这种现象,但没有回答我的问题: 如何解释ANCOVA中协变量的非显着影响? 但是,该问题的答案中没有任何内容建议删除不重要的协变量,因此,现在我倾向于认为它们应该保留。即使在阅读该答案之前,我也想过,因为协变量仍然可以解释某些方差(从而有助于模型),而不必解释超出某个阈值(显着性阈值,我认为不适用于协变量)的数量。 在CV上还有另一个问题,对于这个问题的答案似乎暗示着应将协变量保持在无关紧要的位置,但是对此尚不清楚。(我想链接到该问题,但是我暂时无法再次找到它。) 因此...模型计算中是否应保留未显示统计显着性的协变量?(我已经编辑了这个问题,以阐明无论如何计算都不会在模型输出中显示协变量。) 为了增加复杂性,如果协变量对于数据的某些子集(必须单独处理的子集)在统计上有意义,该怎么办。我将默认保留这样的协变量,否则在其中一种情况下,要么必须使用不同的模型,要么在统计上缺少重要的协变量。但是,如果您也对此拆分案有答案,请提及它。

1
如何在具有统计意义的和非重要意义的分析中解释和报告eta平方/部分eta平方?
我有一些数据,这些数据具有eta平方值和部分eta平方值,这些值作为对组均值差的影响大小的度量。 eta平方和部分eta平方有什么区别?可以使用相同的科恩准则(1988年我认为:0.01 =小,0.06 =中,0.13 =大)来解释它们吗? 另外,如果比较检验(即t检验或单向ANOVA)不显着,是否可以用于报告效应大小?在我的脑海中,这就像说“平均差异未达到统计显着性,但仍需特别注意,因为从eta平方指示的效应大小为中等”。或者,效应量是重要性检验的替代值,而不是互补值吗?

2
A / B测试:z检验,t检验,卡方检验和fisher精确检验
我试图通过在处理简单的A / B测试时选择一种特定的测试方法来理解其原因-(例如,两个具有二进制响应的变体/组(已转换或未转换)。作为示例,我将使用以下数据 Version Visits Conversions A 2069 188 B 1826 220 此处的最高答案很好,并讨论了z,t和卡方检验的一些基本假设。但是令我感到困惑的是,不同的在线资源会引用不同的方法,您会认为基本A / B测试的假设应该几乎相同吗? 例如,本文使用z-score: 本文使用以下公式(我不确定它是否与zscore计算不同?): 本文引用了t检验(p 152): 那么,对于这些不同的方法,可以提出哪些主张呢?为什么会有一个偏好? 要增加一个候选者,可以将上面的表重写为2x2列联表,其中可以使用Fisher精确检验(p5) Non converters Converters Row Total Version A 1881 188 2069 Versions B 1606 220 1826 Column Total 3487 408 3895 但是,根据该线索, fisher的精确测试应仅在较小的样本量下使用(临界值是多少?) 然后有成对的t和z检验,f检验(以及逻辑回归,但我现在暂时不考虑)。在这个简单的A / B测试案例中,对不同方法进行某种论证。 使用示例数据,我得到以下p值 https://vwo.com/ab-split-test-significance-calculator/给出0.001的p值(z得分) http://www.evanmiller.org/ab-testing/chi-squared.html(使用卡方检验)得出的p值为0.00259 在R中fisher.test(rbind(c(1881,188),c(1606,220)))$p.value给出p值为0.002785305 …


6
测试两个二项分布在统计上是否彼此不同
我有三组数据,每组都有二项式分布(即,每组都有成功或失败的元素)。我没有成功的预测概率,而是只能依靠每个成功率作为真实成功率的近似值。我只发现了这个问题,虽然很接近,但似乎并不能完全解决这种情况。 为了简化测试,我们只说我有2个小组(在这个基本案例中可以扩展3个小组)。 第1组试验: = 2455ñ1个n1n_1 第2组试验: = 2730ñ2n2n_2 第1组成功: = 1556ķ1个k1k_1 第2组成功: = 1671ķ2k2k_2 我没有预期的成功概率,只有我从样本中知道的概率。因此,我对这两个组的隐含成功率是: 第1组的成功率: = 1556/2455 = 63.4%p1个p1p_1 第2组的成功率: = 1671/2730 = 61.2%p2p2p_2 每个样本的成功率都相当接近。但是我的样本量也很大。如果我检查二项式分布的CDF来查看它与第一个分布有何不同(我假设第一个是零检验),那么第二个可以实现的可能性很小。 在Excel中: 1-BINOM.DIST(1556,2455,61.2%,TRUE)= 0.012 但是,这没有考虑第一个结果的任何方差,它只是假设第一个结果是测试概率。 有没有更好的方法来测试这两个数据样本在统计上是否彼此实际上有所不同?

5
p值本质上是无用的且使用危险吗?
纽约时报的这篇文章“ 赔率,不断更新”引起了我的注意。简而言之,它指出 [贝叶斯统计]已证明在解决复杂问题时特别有用,包​​括像海岸警卫队在2013年使用的搜索来寻找失踪的渔夫约翰·奥尔德里奇(尽管到目前为止,在寻找马来西亚航空370号班机的过程中)。 ......,从物理学到癌症研究,从生态学到心理学,贝叶斯统计数据遍地开花... 在这篇文章中,还对常客的p值提出了一些批评,例如: 如果p值小于5%,则通常认为结果具有“统计学意义”。哥伦比亚大学统计学教授安德鲁·盖尔曼(Andrew Gelman)表示,但是这种传统存在危险。即使科学家总是正确地进行了计算(但他们没有这样做),接受p值为5%的所有内容也意味着20个“具有统计意义”的结果只是随机噪声。 除上述之外,也许最著名的批评p值的论文就是《自然方法》一书,作者是Regina Nuzzo的《科学方法:统计误差》,其中讨论了许多由p值方法引起的科学问题,例如重现性问题, p值骇客等 P值是统计有效性的“黄金标准”,不像许多科学家所认为的那样可靠。……也许最糟糕的谬论是自欺欺人,宾夕法尼亚大学的心理学家乌里·西蒙索恩(Uri Simonsohn)及其同事已经普及了“ P-hacking”一词。它也被称为数据挖掘,侦听,钓鱼,重要性追踪和两次浸渍。Simonsohn说:“ P黑客正在尝试多种方法,直到获得期望的结果为止”,甚至是在不知不觉中。......……“这一发现似乎是通过p-hacking获得的,作者放弃了其中一个条件,以使整体p值小于.05”,而“她是p-hacker,她总是在收集数据时监视数据。” 另一件事是一个有趣的情节从下面这里,有关剧情的评论: 无论您的影响有多小,您都可以始终努力收集数据以超过p <.05的阈值。只要不存在您要研究的影响,p值就可以衡量您为收集数据付出了多少努力。 综上所述,我的问题是: 第二段引文中的安德鲁·盖尔曼的论点到底意味着什么?他为什么将5%的p值解释为“ 20个具有统计学意义的结果中有1个是随机噪声”?我不相信,因为对我而言,p值可用于一项研究的推断。他的观点似乎与多重测试有关。 更新:有关此内容,请查看安德鲁·盖尔曼(Andrew Gelman)的博客:不,我没有这么说!(提供给@ Scortchi,@ whuber)。 CpCpC_p 是否有使用p值进行统计分析的良好实践指导,可以得出更可靠的研究结果? 正如某些统计学家所倡导的那样,贝叶斯建模框架会是更好的方法吗?具体来说,贝叶斯方法是否更有可能解决错误的发现或处理数据问题?由于先验在贝叶斯方法中非常主观,因此我在这里也不确信。是否有任何实践和知名的研究表明贝叶斯方法比常客的p值更好,或者至少在某些特定情况下,这种观点更好? 更新:对于是否存在贝叶斯方法比常客主义的p值方法更可靠的情况,我将特别感兴趣。“可靠”是指贝叶斯方法不太可能操纵数据以获得所需结果。有什么建议么? 更新6/9/2015 刚注意到这个消息,并认为将其放在此处进行讨论会很好。 心理学杂志禁止P值 一项有争议的统计测试终于结束了,至少在一本期刊上如此。本月初,《基本与应用社会心理学》(BASP)的编辑宣布该期刊将不再发表包含P值的论文,因为统计数据经常被用来支持低质量的研究。 与最近的论文一起,《自然》杂志关于“ P值”的“善变的P值产生了无法再现的结果”。 更新5/8/2016 早在三月,美国统计协会(ASA)就统计意义和p值发布了声明,“ .... ASA声明旨在将研究引导到'p <0.05后时代'。” 该语句包含6条解决p值滥用的原则: P值可以指示数据与指定的统计模型不兼容的程度。 P值不能衡量所研究假设为真的概率,也不能衡量仅由随机机会产生数据的概率。 科学结论和业务或政策决策不应仅基于p值是否超过特定阈值。 正确的推理需要完整的报告和透明度。 p值或统计显着性不能衡量效果的大小或结果的重要性。 就其本身而言,p值不能很好地证明有关模型或假设的证据。 详细信息: “ ASA关于p值的声明:上下文,过程和目的”。

1
逻辑回归:方差卡方检验与系数的显着性(R中的anova()vs summary())
我有一个8个变量的逻辑GLM模型。我在R中进行了卡方检验,anova(glm.model,test='Chisq')当在测试的顶部进行排序时,其中两个变量可预测,而在底部的排序中则没有那么多。在summary(glm.model)表明它们的系数不显着(高p值)。在这种情况下,变量似乎并不重要。 我想问问哪个是变量显着性更好的检验-模型摘要中的系数显着性或来自的卡方检验anova()。还有-什么时候一个比另一个更好? 我想这是一个广泛的问题,但是任何有关考虑因素的建议将不胜感激。

2
“ p值”的确切值是否没有意义?
早在2009年,我就曾与统计学家进行过讨论,他说p值的确切值无关紧要:唯一重要的是它是否有意义。即一个结果不能比另一个结果更重要;例如,您的样本来自同一人群,也可能来自不同人群。 我对此有些疑惑,但我也许可以理解其意识形态: 5%的阈值是任意的,即p = 0.051并不重要,而p = 0.049则不应真正改变观察或实验的结论,尽管一个结果很重要而另一个结果不重要。 我之所以提出这一点,是因为我正在研究生物信息学理学硕士学位,并且与该领域的人们交谈之后,似乎有坚定的决心要为他们所做的每组统计数据获取准确的p值。例如,如果他们“实现” p <1.9×10 -12的p值,则他们想证明其结果的显着性,并且该结果具有丰富的信息。通过以下问题举例说明了此问题:为什么我的p值不能小于2.2e-16?,因此他们希望记录一个值,该值指示仅凭偶然这将小于万亿分之一。但是,在证明这一结果发生在万亿分之一以下而不是十亿分之一中,我看不出有什么区别。 那么我可以理解,p <0.01表明发生这种情况的可能性不到1%,而p <0.001表明这样的结果比上述p值更不可能发生,但是您得出的结论应该是完全不同?毕竟它们都是重要的p值。我想想想记录确切的p值的唯一方法是在Bonferroni校正过程中,由于比较次数的原因,阈值会发生变化,从而减少了I型错误。但是,即使如此,为什么还要显示一个比阈值有效值小12个数量级的p值? 而且,应用Bonferroni校正本身不是也有些随意吗?从某种意义上说,最初的校正被认为是非常保守的,因此可以进行其他校正,以选择观察者可用于其多次比较的显着性水平。但是正因为如此,根据研究人员想要使用的统计数据,事情并不是变得很重要就本质上不是可变的。统计数据应该这么开放吗? 总之,统计数据是否应该主观性更好(尽管我猜想它需要主观性是多变量系统的结果),但最终我需要澄清一下:某事是否比别的事重要?而且,p <0.001是否足以记录准确的p值?

4
较小的p值是否更有说服力?
我一直在阅读,1型错误率,显着性水平,功效计算,效应大小以及Fisher与Neyman-Pearson的争论。这让我感到有些不知所措。我为案文感到抱歉,但是在继续讨论实际问题之前,有必要概述一下我对这些概念的当前理解。ppp 根据我收集到的信息,值只是惊喜的度量,假定原假设为真,则获得结果的可能性至少为极端。费舍尔原本打算将其作为一项连续措施。ppp 在Neyman-Pearson框架中,您预先选择一个重要级别,并将其用作(任意)截止点。显着性级别等于1类错误率。它由长期运行频率定义,即,如果您要重复进行1000次实验,并且原假设为真,那么由于采样的可变性,其中约有50个实验会产生显着效果。通过选择显着性水平,我们以一定的概率防范这些误报。传统上,不会出现在此框架中。PPP 如果我们发现一个的0.01 -值但这并不意味着1型错误率是0.01,1型错误陈述先验的。我相信这是Fisher与NP辩论中的主要论据之一,因为通常报告为0.05 *,0.01 **,0.001 ***。这可能会误导人们说效果是在某个p值而不是某个显着性值上显着的。ppppppppp 我还意识到ppp值是样本大小的函数。因此,它不能用作绝对测量。较小的ppp值可能表示在大型样品实验中产生较小的无关影响。为了解决这个问题,在确定实验的样本量时执行功效/效应量计算很重要。PPP告诉我们是否有影响,而不是影响有多大。参见Sullivan 2012。 我的问题: 我该如何调和ppp值是一种惊喜度量(更小=更具说服力),同时又不能将其视为绝对度量的事实? 我感到困惑的是:我们能否对小ppp值比大p值更有信心?从渔业的角度来说,我会说是的,我们感到更加惊讶。在NP框架中,选择较小的显着性水平意味着我们将更加严格地防范误报。 但另一方面,ppp取决于样本量。它们不是绝对的措施。因此,我们不能简单地说0.001593 比0.0439 有意义。然而,这在费舍尔的框架中将隐含着这样的含义:我们会对如此极端的价值感到惊讶。甚至有关于“ 高度重要 ”一词用词错误的讨论:将结果称为“高度重要”是否错误? 我听说,某些科学领域的ppp仅在小于0.0001时才被认为是重要的,而在其他领域,大约0.01的值已经被认为具有很高的意义。 相关问题: Fisher和Neyman-Pearson方法之间进行统计测试的“混合”真的是“不连贯的杂烩”吗? 何时使用Fisher和Neyman-Pearson框架? “ p值”的确切值是否没有意义? 与I型错误有关的p值的频繁属性 置信区间与P值的两种平均值 为什么较低的p值不能提供更多的证据来证明原值?Johansson 2011的论点(由@amoeba提供)

4
为什么较低的p值不能提供更多的证据来证明原值?2011年约翰逊的观点
Johansson(2011)在“ 向不可能的事物致敬:p值,证据和可能性 ”(也与期刊链接)中指出,较低的通常被认为是抵制零值的有力证据。约翰逊(Johansson)暗示,如果他们的统计检验输出值为,那么人们会认为反对零值的证据要比他们的统计检验输出值为更好。Johansson列出了无法将值用作反对null的证据的四个原因:pppppp0.010.010.01ppp0.450.450.45ppp ppp is uniformly distributed under the null hypothesis and can therefore never indicate evidence for the null. ppp is conditioned solely on the null hypothesis and is therefore unsuited to quantify evidence, because evidence is always relative in the sense of being evidence for or against a …



5
单个研究人员应如何考虑错误发现率?
我一直在努力探索错误发现率(FDR)应该如何告知个别研究人员的结论。例如,如果您的研究动力不足,即使在结果显着,您是否应该打折呢?注意:我在谈论FDR时是在综合检查多项研究结果的背景下,而不是将其作为多项测试校正的方法。α=.05α=.05\alpha = .05 使(也许大方)假设测试的假设实际上是真,FDR是两种类型的函数I和II型错误率如下:∼.5∼.5\sim.5 FDR=αα+1−β.FDR=αα+1−β.\text{FDR} = \frac{\alpha}{\alpha+1-\beta}. 有理由认为,如果一项研究的能力不足,那么即使结果显着,我们也不应像进行充分研究的结果那样相信结果。因此,正如某些统计学家所说,在某些情况下,“长远来看”,如果遵循传统准则,我们可能会发布许多错误的重要结果。如果一项研究的特点是始终缺乏足够的研究能力(例如,前十年的候选基因环境相互作用文献),那么甚至有重复的重大发现也可能是可疑的。××\times 应用R包extrafont,ggplot2和xkcd,我认为这可能会有用地概念化为一个透视问题: 有了这些信息,研究人员下一步应该做什么?如果我猜测我正在研究的效应的大小(因此,鉴于我的样本量,则估计为),我是否应该调整我的α水平直到FDR = .05?即使我的研究能力不足,我是否应该以α = .05的水平发布结果,并将FDR的考虑留给文献消费者?1−β1−β1 - \betaαα\alphaα=.05α=.05\alpha = .05 我知道这是一个在本网站和统计文献中都经常讨论的话题,但是我似乎无法就此问题达成共识。 编辑:响应@amoeba的评论,FDR可以从标准的I型/ II型错误率偶发表中得出(请避免其丑陋): | |Finding is significant |Finding is insignificant | |:---------------------------|:----------------------|:------------------------| |Finding is false in reality |alpha |1 - alpha | |Finding is true in reality |1 - beta |beta | …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.