统计和大数据 hypothesis-testing

1

我在《经济学人》上看到了一篇关于看似毁灭性论文的文章 [1] ，该论文令人质疑“ 大约有40,000种已发表的[fMRI]研究。他们说，这种错误是由于“错误的统计假设”。我阅读了这篇论文，发现部分原因是多次比较校正，但是我不是fMRI专家，因此很难遵循。作者所说的错误假设是什么？为什么要做出这些假设？做出这些假设有哪些方法？信封计算的背面显示，有40,000张fMRI论文的资金超过10亿美元（研究生的工资，运营成本等）。 [1] Eklund等人，“聚类失败：为什么空间范围的fMRI推论会增加假阳性率，PNAS 2016”

67 hypothesis-testing multiple-comparisons spatial neuroimaging neuroscience

3

这是p值问题的解决方案吗？

2016年2月，美国统计协会发布了有关统计意义和p值的正式声明。关于它的主题我们广泛讨论了这些问题。但是，到目前为止，还没有任何权威机构提供公认的有效替代方案。美国统计学会（ASS）发布了其回应p值：下一步是什么？ “ p值并不能带来太多好处。” 我们认为ASA还远远不够。现在该承认p值时代已经结束。统计学家已经成功地使用它们来迷惑大学生，欺骗科学家和愚蠢的编辑，但是全世界已经开始看到这种诡计。我们需要放弃20世纪初统计学家控制决策的尝试。我们需要回到实际起作用的地方。 ASS的官方建议是这样的： ASS代替p值，提倡使用STOP （SeaT-Of-Pant程序）。这种久经考验的方法被古希腊人，文艺复兴时期的人以及所有科学家使用，直到罗纳德·费舍尔（Ronald Fisher）出现并破坏了事物。STOP是简单，直接，数据驱动且权威的。为此，要有权威人士（最好是年长的男性）查看数据并决定他们是否同意他的观点。当他决定这样做时，结果将是“显着的”。否则，结果就不那么重要了，每个人都必须忘记整个事情。原则回应涉及ASA的六项原则。 STOP可以指示数据与指定的统计模型不兼容的程度。我们喜欢这个短语，因为它是STOP回答是或否的任何一种奇妙的方式。与p值或其他统计程序不同，这毫无疑问。对于那些说“我们不需要没有臭”的原假设的人来说，这是一个完美的答案！**！@是什么呢？没有人能弄清楚它应该是什么。” STOP不能衡量假设成立的可能性：它实际上决定了该假设成立与否。每个人都对概率感到困惑。通过将可能性排除在外，STOP消除了多年的本科生和研究生学习的需要。现在，任何人（年龄足够大且男性）都可以执行统计分析，而无需听一次单独的统计讲座或运行奥秘的软件（产生难以理解的输出）的痛苦和折磨。科学结论和业务或政策决策可以基于常识和真实权威数字。无论如何，重要的决定总是由当局做出的，所以让我们承认这一点并削减中间商。使用STOP将使统计人员自由地做他们最适合的工作：使用数字来掩盖事实真相并使当权者的偏好成圣。正确的推理需要完整的报告和透明度。 STOP是有史以来发明的最透明和不言而喻的统计程序：您查看数据并做出决定。它消除了人们用来掩盖自己不知道数据含义的事实的所有那些令人困惑的z检验，t检验，卡方检验和字母汤程序（ANOVA！GLM！MLE！）。 STOP衡量结果的重要性。这是不言而喻的：如果当权者使用STOP，那么结果必须很重要。 STOP本身就提供了有关模型或假设的良好证据。我们不想挑战一个权威，是吗？研究人员和决策者将认识到STOP提供了他们需要知道的所有信息。由于这些原因，数据分析可以以STOP结尾；无需其他方法，例如p值，机器学习或占星术。其他方法一些统计学家偏爱所谓的“贝叶斯”方法，该方法不加思索地应用由18世纪牧师死后发表的晦涩定理来解决所有问题。其最著名的拥护者自由地承认这些方法是“主观的”。如果我们要使用主观方法，那么显然决策者越权威和知识渊博，结果就会越好。因此，STOP成为所有贝叶斯方法的逻辑极限。当您可以只向负责人显示数据并询问他的意见时，为什么还要花大量的时间计算这些可怕的计算呢？故事结局。最近出现了另一个社区来挑战统计学家的神职人员。他们称自己为“机器学习者”和“数据科学家”，但实际上他们只是寻求更高地位的黑客。如果这些人希望人们认真对待他们，这就是ASS的官方立场。问题这是否是ASA用p值和无效假设检验确定的问题的答案？它真的可以统一贝叶斯和频繁主义范式（在响应中隐式声明）吗？

67 hypothesis-testing statistical-significance p-value

8

有一个很好的，令人信服的示例，其中p值很有用？

标题中的问题是不言而喻的，但我想提供一些背景信息。 ASA在本周早些时候发布了“ 关于p值：上下文，过程和目标 ”的声明，概述了对p值的各种常见误解，并敦促在没有上下文和思想的情况下不要使用它（可以这样说）。任何统计方法，真的）。为了回应ASA，马特洛夫（Matloff）教授写了一篇博客文章：150年后，ASA对p值表示否。然后，本杰米尼（Benjamini）教授（和我）写了一篇题为“ 这不是p值的过错 –对最近ASA声明的反思”的回复。作为回应，马特洛夫教授在后续帖子中问：我想看到的是一个很好的，令人信服的示例，其中p值很有用。那确实是底线。要引用他的两个主要论点反对的用处 -值：ppp 对于大样本，显着性检验是针对原假设的微小，不重要的偏离而发动的。在现实世界中，几乎没有零假设是真实的，因此对它们进行显着性检验是荒谬而离奇的。我对其他经过交叉验证的社区成员对这个问题/论点的看法以及对它的良好回应感到非常感兴趣。

64 hypothesis-testing bayesian p-value inference frequentist

3

包含反对无效假设重要性检验的论点的参考文献？

在过去的几年中，我阅读了许多反对在科学中使用零假设重要性检验的论文，但并不认为要保留一个持久的清单。一位同事最近要求我提供这样的列表，所以我想我要请这里的所有人来帮助构建它。首先，这是我到目前为止的事情： Johansson（2011）“向不可能的事物致敬：p值，证据和可能性。” Haller＆Kraus（2002）“对意义的误解：学生与老师分享的一个问题。” Wagenmakers（2007）“解决普遍存在的p值问题的实用解决方案。” Rodgers（2010）“数学和统计建模的认识论：一场安静的方法论革命”。 Dixon（1998）“为什么科学家重视p值。” Glover＆Dixon（2004）“似然比：经验心理学家的简单而灵活的统计数据。”

63 hypothesis-testing statistical-significance references p-value

6

“嵌套”模型和“非嵌套”模型之间有什么区别？

在有关分层/多级模型的文献中，我经常阅读有关“嵌套模型”和“非嵌套模型”的信息，但这意味着什么？谁能给我一些例子，或者告诉我有关此措辞的数学含义？

61 hypothesis-testing terminology nested-models nested-data

15

为什么参数统计比非参数统计更受青睐？

有人可以向我解释为什么有人会选择非参数统计方法来进行假设检验或回归分析吗？在我看来，这就像漂流并选择不防水的手表一样，因为您可能不会弄湿它。为什么不使用在每种情况下都可以使用的工具？

60 regression hypothesis-testing mathematical-statistics estimation nonparametric

5

为什么在获得重要结果之前收集数据会增加I型错误率？

我确实想知道为什么收集数据直到获得显着结果（例如）（即p-hacking）会增加I型错误率？p < .05p<.05p \lt .05 我也非常感谢R对此现象的演示。

60 r hypothesis-testing p-value simulation type-i-and-ii-errors

12

两尾测试……我只是不服气。重点是什么？

以下摘录摘自条目：一尾测试和二尾测试之间有何区别？，位于UCLA的统计信息帮助网站上。 ...考虑在另一个方向上失去效果的后果。想象您已经开发了一种新药，您认为这是对现有药物的改进。您希望最大程度地发现改进的能力，因此选择单尾测试。这样，您将无法测试新药是否比现有药物有效的可能性。在学习了假设测试的绝对基础并了解了关于一个尾巴测试与两个尾巴测试的那一部分之后...我了解了一个尾巴测试的基本数学和增加的检测能力，等等。。。但是我只是无法缠住我的头一件事...有什么意义？我真的不明白为什么当样本结果只能是一个或另一个，或者两者都不是时，为什么要在两个极端之间分配alpha值。以上面引用的文本为例。您怎么可能在相反方向上“无法测试”结果？您有样本均值。你有人口平均数。简单的算术告诉您哪个更高。在相反的方向上有哪些测试或失败测试？如果您清楚地看到样本均值偏离了另一个方向，是什么使您从头开始却有了相反的假设呢？同一页上的另一句话：在运行无法拒绝原假设的二尾检验之后选择一尾检验是不合适的，无论二尾检验与显着性有多“接近”。我认为这也适用于切换单尾测试的极性。但是，与您只选择了正确的单尾测试一开始相比，这种“医生化”结果的有效性如何呢？显然，我在这里错过了大部分图片。这一切似乎太武断了。从某种意义上说，这是什么意思，即“具有统计意义的意义”-95％，99％，99.9％...首先是任意的。

59 hypothesis-testing statistical-significance inference

13

如果我们在一个大型研究中未能拒绝零假设，那不是零证据吗？

无效假设重要性检验的基本限制是，它不允许研究人员收集有利于无效的证据（来源）我在多个地方都看到过这种说法，但我找不到理由。如果我们进行了大量的研究，我们没有发现统计学显著的证据对原假设，这不就是证据的零假设？

59 hypothesis-testing

3

解释xkcd软糖漫画：是什么使它有趣？

我看到一个超时它们运行的20次总的测试，，所以他们错误地认为，二十测试之一中，其结果是显著（0.05 = 1 / 20）。p<0.05p<0.05p < 0.050.05=1/200.05=1/200.05 = 1/20 xkcd果冻豆漫画-“重要” 标题：重要悬停文字：“所以，呃，我们再次进行了绿色研究，但没有任何联系。这可能是-''研究发现冲突于绿色果冻豆/痤疮链接；建议进行更多研究！”

59 hypothesis-testing statistical-significance confidence-interval p-value humor

6

Fisher和Neyman-Pearson方法之间进行统计测试的“混合”真的是“不连贯的杂烩”吗？

存在某种思想流派，据此，最广泛的统计检验方法是两种方法之间的“混合”：费舍尔方法和内曼-皮尔森方法；声称，这两种方法是“不兼容的”，因此产生的“混合”是“不相干的杂烩”。我将在下面提供参考书目和一些引号，但就目前而言，在Wikipedia上有关统计假设检验的文章中已经写了很多。在简历上，@ Michael Lew反复提出了这一点（请参见此处和此处）。我的问题是：为什么声称F和NP方法不兼容，为什么混合方法不连贯？请注意，我至少阅读了六篇反混合论文（请参阅下文），但仍然无法理解问题或论点。还请注意，我不建议讨论F还是NP是否是更好的方法。我也没有提出讨论常客与贝叶斯框架。相反，问题是：如果接受F和NP都是有效且有意义的方法，那么它们的混合到底有什么不好呢？这是我对情况的了解。Fisher的方法是计算值，并将其作为反对原假设的证据。越小，证据越有说服力。研究人员应该将此证据与他的背景知识相结合，确定其是否足以令人信服，并据此进行研究。（请注意，费舍尔的观点多年来一直在变化，但这似乎是他最终收敛的。）相比之下，内曼·皮尔森的方法是提前选择，然后检查p α p ≤ αppppppαα\alphap ≤ αp≤αp\le\alpha; 如果是这样，则将其称为有意义的，并拒绝零假设（在此，我省略了与当前讨论无关的NP故事的大部分内容）。另请参见@gung在何时使用Fisher和Neyman-Pearson框架中的出色答复。混合方法是计算值，将其报告（隐式假设值越小越好），如果（通常为），则结果也显着，否则为非显着性。这应该是不连贯的。同时击败两个合法的事情怎么可能是无效的。p ≤ α α = 0.05pppp ≤ αp≤αp\le\alphaα = 0.05α=0.05\alpha=0.05 由于特别不连贯，抗杂交主义者认为报告的普遍做法是，或（甚至），其中总是选择最强的不等式。该论点似乎是：（a）由于没有报告确切的而无法正确评估证据的强度，（b）人们倾向于将不等式中的右手数字解释为并将其视为I型错误。率，那是错误的。我在这里看不到大问题。首先，报告精确的当然是更好的做法，但是没有人真正关心是否为或p < 0.05 p < 0.01 p < 0.001 p « 0.0001 p α p p 0.02 0.03 〜0.0001 0.05 α = 0.05 p ≠ α αpppp < …

56 hypothesis-testing statistical-significance p-value type-i-and-ii-errors history

9

如何在lme4混合模型中获得效果的p值（检查显着性）？

我在R中使用lme4来适应混合模型 lmer(value~status+(1|experiment))) 价值是连续的，状态和实验是因素，我得到 Linear mixed model fit by REML Formula: value ~ status + (1 | experiment) AIC BIC logLik deviance REMLdev 29.1 46.98 -9.548 5.911 19.1 Random effects: Groups Name Variance Std.Dev. experiment (Intercept) 0.065526 0.25598 Residual 0.053029 0.23028 Number of obs: 264, groups: experiment, 10 Fixed effects: Estimate …

56 r hypothesis-testing mixed-model p-value lme4-nlme

8

为什么要继续教导和使用假设检验（在置信区间可用时）？

为什么要继续教和使用假设检验（包括所有困难的概念，并且是统计上最严重的错误），以解决存在区间估计器（置信度，自举率，可信度或其他）的问题？给学生最好的解释是什么？只有传统？意见将非常受欢迎。

56 hypothesis-testing confidence-interval teaching

4

卡明（2008）声称，复制过程中获得的p值的分布仅取决于原始p值。怎么可能是真的？

我一直在阅读杰夫·卡明（Geoff Cumming）在2008年发表的论文《复制和区间：值只是模糊地预测未来，但置信区间的确好得多》pppppp （《 Google学术搜索》中的〜200篇引文），并且被其核心观点之一所迷惑。这是卡明（Cumming）反对并主张置信区间的一系列论文之一。但是，我的问题与这场辩论无关，仅涉及关于一项具体主张。pppppp 让我引用摘要：本文显示，如果初始实验的结果是两尾，则复制中的单尾值有机会落在区间，的机会，，充分一个的机会。值得注意的是，该间隔（称为间隔）是如此之大，无论样本大小如何。p=.05p=.05p= .0580%80%80\%ppp(.00008,.44)(.00008,.44)(.00008, .44)10%10%10\%p<.00008p<.00008p < .0000810%10%10\%p>.44p>.44p > .44ppp 卡明（Cumming）声称，此“区间”以及实际上在复制原始实验（具有相同的固定样本大小）时将获得的的整个分布仅取决于原始值和不依赖于真实效果尺寸，功率，样本大小，或其他任何东西：ppppppppppobtpobtp_\mathrm{obt} 可以推导的概率分布，而无需知道或假设（或幂）的值。[...]我们不假设任何有关先验知识，而仅使用信息 [观察到的组间差异]给出了作为给定的计算基础和间隔的分布的。pppδδ\deltaδδ\deltaMdiffMdiffM_\mathrm{diff}δδ\deltapobtpobtp_\mathrm{obt}pppppp \quad\quad\quad 我对此感到困惑，因为在我看来，的分布很大程度上取决于幂，而原始本身并没有提供任何有关幂的信息。实际效果大小可能是，然后分布是均匀的；或真实效果的大小可能很大，那么我们应该期望大多数很小。当然，可以先假设一些可能的效果大小并对其进行积分，但是卡明似乎声称这不是他正在做的事情。ppppobtpobtp_\mathrm{obt}δ=0δ=0\delta=0ppp 问题：这到底是怎么回事？请注意，此主题与以下问题有关：重复实验的哪个部分在第一个实验的95％置信区间内将具有影响大小？@whuber提供了一个很好的答案。卡明（Canmming）对此主题发表了一篇论文，内容为：卡明（Cumming）和Maillardet，2006年，置信区间和复制：下一个均值将落在哪里？-但是这一点很明确，没有问题。我还注意到，卡明的主张在2015年《自然方法》论文中被重复了好几次。善变的值会产生PPP某些人可能遇到的不可再现的结果（在Google学术搜索中已被引用约100次）：重复实验的值将有很大变化。实际上，很少重复进行实验。我们不知道下一个可能有多大差异。但它可能会大不相同。例如，不管实验的统计能力如何，如果单次重复实验的值为，则重复实验返回值在到之间的可能性为（变化为（原文如此，会更大）。PPPPPPPPP0.050.050.0580%80%80\%PPP0000.440.440.4420%20%20\%PPP （请注意，顺便说一下，怎么样，不管卡明的说法是否正确，自然的方法报导援引它不准确：根据卡明，它只有以上的概率。是的，纸张也说：“20％CHAN g e“。Pfff。）10%10%10\%0.440.440.44

52 hypothesis-testing p-value power replicability

3

我们有“可怜的投票”问题吗？

我知道，这听起来像是题外话，但请听我说。在Stack Overflow上，我们在这里对文章进行投票，所有信息都以表格形式存储。例如：帖子ID投票者ID投票类型日期时间 ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 2000-1-1 10:00:01 10 5 2 2000-1-1 10:00:01 ... 等等。投票类型2是反对，投票类型3是反对。您可以在http://data.stackexchange.com上查询此数据的匿名版本。有一种看法认为，如果帖子的得分达到-1或更低，则更有可能被推荐。这可能仅仅是确认偏差，也可能是根源。我们将如何分析这些数据以确认或否认这一假设？我们将如何衡量这种偏见的影响？

51 time-series hypothesis-testing data-mining markov-process censoring

Questions tagged «hypothesis-testing»