Questions tagged «statistical-significance»

统计显着性是指如果在抽取此样本的总体中真实效果为0(或某个假设值)的概率可能会发生比样本中的极端高或更高的测试统计。

9
p值真的是这样工作吗?每年一百万篇研究论文是否可以基于纯粹的随机性?
我是统计学的新手,我只是在学习理解基本知识,包括。但是我现在脑子里有一个很大的问号,我希望我的理解是错误的。这是我的思考过程:ppp 并非全世界的研究都像“无限猴子定理”中的猴子一样吗?考虑世界上有23887所大学。如果每所大学有1000名学生,那么每年就是2300万学生。 假设每个学生每年使用假设检验进行至少一项研究。α = 0.05α=0.05\alpha=0.05 这并不意味着即使所有研究样本都是从随机种群中抽取的,其中约有5%会“拒绝原假设为无效”。哇。考虑一下。由于“显着”的结果,每年大约有一百万篇研究论文发表。 如果它是这样工作的,那就太恐怖了。这意味着我们理所当然的许多“科学真理”都是基于纯粹的随机性。 一个简单的R代码块似乎支持我的理解: library(data.table) dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value)) dt[p<0.05,] 那么,这条成功的 -fishing:我骗了数以百万计,以为巧克力有助于减肥。这是方法。ppp 这真的就是全部吗?这是“科学”应该如何起作用的吗?

2
我们对“野外” p黑客了解多少?
短语“ p- hacking”(也称为“数据挖掘”,“监听”或“钓鱼”)是指各种统计不良行为,其结果在人工上具有统计学意义。有许多方法可以取得“更重要的”结果,包括但绝不限于: 仅分析发现模式的数据的“有趣”子集; 未针对多项测试进行适当调整,尤其是事后测试,并且未报告所进行的无关紧要的测试; 尝试对同一假设进行不同的检验,例如参数检验和非参数检验(此线程对此进行了一些讨论),但仅报告了最重要的检验; 试验数据点的包含/排除,直到获得所需的结果。一个机会来自“数据清理异常值”,但也适用于模棱两可的定义(例如在对“发达国家”的计量经济学研究中,不同的定义产生了不同的国家集)或定性的纳入标准(例如在荟萃分析中) ,某个特定研究的方法是否足够健壮到可以包括在内可能是一个很好的平衡论点); 前面的示例与可选停止有关,即,分析数据集并根据到目前为止收集的数据来决定是否收集更多数据(“这几乎是重要的,让我们再测量三名学生!”),而无需对此进行考虑。在分析中; 模型拟合期间的实验,尤其是要包含的协变量,还涉及数据转换/功能形式。 因此,我们知道可以进行p- hacking。它经常被列为“ p值的危险”之一,并且在ASA报告中提到了具有统计意义的意义,在此处通过Cross Validated进行了讨论,因此我们也知道这是一件坏事。尽管有一些可疑的动机和(特别是在学术出版物竞争中)适得其反的动机,但我怀疑无论是故意的渎职行为还是简单的无知,都很难弄清楚这样做的原因。有人从逐步回归中报告p值(因为他们发现逐步过程“产生了良好的模型”,但没有意识到所谓的p-values无效)位于后一个阵营中,但在上面我最后一个要点下,效果仍然是p -hacking。 当然,有证据表明p- hacking已经“存在”,例如Head等人(2015年)正在寻找能够感染科学文献的明显迹象,但是我们目前的证据基础是什么?我知道,Head等人采取的方法并非没有争议,因此,当前的文学状态或学术界的一般思维将很有趣。例如,我们是否有以下想法: 它的流行程度如何,以及在多大程度上可以将它的出现与出版偏见区分开来?(这种区别甚至有意义吗?) 在边界处,效果是否特别严重?例如,是否在处看到了类似的效果,还是我们看到p值的整个范围都受到影响?p ≈ 0.01p ≈ 0.05p≈0.05p \approx 0.05p ≈ 0.01p≈0.01p \approx 0.01 p- hacking的模式在各个学术领域是否有所不同? 我们是否知道p- hacking的哪种机制最常见(上面的要点中列出了其中的一些机制)?是否已证明某些形式比“其他形式”更难发现? 参考文献 负责人ML,Holman,L.,Lanfear,R.,Kahn,AT,&Jennions,MD(2015)。p- hacking在科学领域的范围和后果。PLoS Biol,13(3),e1002106。


3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
这是p值问题的解决方案吗?
2016年2月,美国统计协会发布了有关统计意义和p值的正式声明。关于它的主题我们广泛讨论了这些问题。但是,到目前为止,还没有任何权威机构提供公认的有效替代方案。美国统计学会(ASS)发布了其回应p值:下一步是什么? “ p值并不能带来太多好处。” 我们认为ASA还远远不够。现在该承认p值时代已经结束。统计学家已经成功地使用它们来迷惑大学生,欺骗科学家和愚蠢的编辑,但是全世界已经开始看到这种诡计。我们需要放弃20世纪初统计学家控制决策的尝试。我们需要回到实际起作用的地方。 ASS的官方建议是这样的: ASS代替p值,提倡使用STOP (SeaT-Of-Pant程序)。这种久经考验的方法被古希腊人,文艺复兴时期的人以及所有科学家使用,直到罗纳德·费舍尔(Ronald Fisher)出现并破坏了事物。STOP是简单,直接,数据驱动且权威的。为此,要有权威人士(最好是年长的男性)查看数据并决定他们是否同意他的观点。当他决定这样做时,结果将是“显着的”。否则,结果就不那么重要了,每个人都必须忘记整个事情。 原则 回应涉及ASA的六项原则。 STOP可以指示数据与指定的统计模型不兼容的程度。 我们喜欢这个短语,因为它是STOP回答是或否的任何一种奇妙的方式。与p值或其他统计程序不同,这毫无疑问。对于那些说“我们不需要没有臭”的原假设的人来说,这是一个完美的答案!**!@是什么呢?没有人能弄清楚它应该是什么。” STOP不能衡量假设成立的可能性:它实际上决定了该假设成立与否。 每个人都对概率感到困惑。通过将可能性排除在外,STOP消除了多年的本科生和研究生学习的需要。现在,任何人(年龄足够大且男性)都可以执行统计分析,而无需听一次单独的统计讲座或运行奥秘的软件(产生难以理解的输出)的痛苦和折磨。 科学结论和业务或政策决策可以基于常识和真实权威数字。 无论如何,重要的决定总是由当局做出的,所以让我们承认这一点并削减中间商。使用STOP将使统计人员自由地做他们最适合的工作:使用数字来掩盖事实真相并使当权者的偏好成圣。 正确的推理需要完整的报告和透明度。 STOP是有史以来发明的最透明和不言而喻的统计程序:您查看数据并做出决定。它消除了人们用来掩盖自己不知道数据含义的事实的所有那些令人困惑的z检验,t检验,卡方检验和字母汤程序(ANOVA!GLM!MLE!)。 STOP衡量结果的重要性。 这是不言而喻的:如果当权者使用STOP,那么结果必须很重要。 STOP本身就提供了有关模型或假设的良好证据。 我们不想挑战一个权威,是吗?研究人员和决策者将认识到STOP提供了他们需要知道的所有信息。由于这些原因,数据分析可以以STOP结尾;无需其他方法,例如p值,机器学习或占星术。 其他方法 一些统计学家偏爱所谓的“贝叶斯”方法,该方法不加思索地应用由18世纪牧师死后发表的晦涩定理来解决所有问题。其最著名的拥护者自由地承认这些方法是“主观的”。如果我们要使用主观方法,那么显然决策者越权威和知识渊博,结果就会越好。因此,STOP成为所有贝叶斯方法的逻辑极限。当您可以只向负责人显示数据并询问他的意见时,为什么还要花大量的时间计算这些可怕的计算呢?故事结局。 最近出现了另一个社区来挑战统计学家的神职人员。他们称自己为“机器学习者”和“数据科学家”,但实际上他们只是寻求更高地位的黑客。如果这些人希望人们认真对待他们,这就是ASS的官方立场。 问题 这是否是ASA用p值和无效假设检验确定的问题的答案?它真的可以统一贝叶斯和频繁主义范式(在响应中隐式声明)吗?

3
包含反对无效假设重要性检验的论点的参考文献?
在过去的几年中,我阅读了许多反对在科学中使用零假设重要性检验的论文,但并不认为要保留一个持久的清单。一位同事最近要求我提供这样的列表,所以我想我要请这里的所有人来帮助构建它。首先,这是我到目前为止的事情: Johansson(2011)“向不可能的事物致敬:p值,证据和可能性。” Haller&Kraus(2002)“对意义的误解:学生与老师分享的一个问题。” Wagenmakers(2007)“解决普遍存在的p值问题的实用解决方案。” Rodgers(2010)“数学和统计建模的认识论:一场安静的方法论革命”。 Dixon(1998)“为什么科学家重视p值。” Glover&Dixon(2004)“似然比:经验心理学家的简单而灵活的统计数据。”

10
“科学家奋起反抗统计意义”是什么意思?(自然评论)
《自然科学家评论》的标题与统计意义背道而驰,其开头为: 瓦伦丁·阿姆海因(Valentin Amrhein),桑德·格陵兰(Sander Greenland),布莱克·麦克沙恩(Blake McShane)和800多个签署国呼吁结束大肆宣传的主张,并取消可能产生的关键影响。 稍后包含如下语句: 再一次,我们不主张禁止使用P值,置信区间或其他统计指标,而只是禁止对它们进行分类。这包括在统计上是否有意义的二分法,以及基于其他统计量(例如贝叶斯因子)的分类。 我想我可以理解,下面的图像并不表示这两项研究不同意,因为其中一项“排除”了无效,而另一项则没有。但是这篇文章似乎比我理解的要深入得多。 到最后,似乎有四个要点。对于那些阅读统计数据而不是编写统计数据的人来说,是否可以用更简单的术语来概括这些内容? 在谈论兼容性间隔时,请记住四件事。 首先,仅在给出假设的前提下,因为间隔给出的值与数据最兼容,这并不意味着其外的值是不兼容的。他们只是不太兼容... 其次,在给定假设的情况下,并非内部的所有值都与数据同等兼容... 第三,就像它产生的0.05阈值一样,用于计算间隔的默认95%本身就是一个任意约定... 最后,也是最重要的一点,要谦虚:兼容性评估取决于用于计算间隔的统计假设的正确性...

12
两尾测试……我只是不服气。重点是什么?
以下摘录摘自条目:一尾测试和二尾测试之间有何区别?,位于UCLA的统计信息帮助网站上。 ...考虑在另一个方向上失去效果的后果。想象您已经开发了一种新药,您认为这是对现有药物的改进。您希望最大程度地发现改进的能力,因此选择单尾测试。这样,您将无法测试新药是否比现有药物有效的可能性。 在学习了假设测试的绝对基础并了解了关于一个尾巴测试与两个尾巴测试的那一部分之后...我了解了一个尾巴测试的基本数学和增加的检测能力,等等​​。。。但是我只是无法缠住我的头一件事...有什么意义?我真的不明白为什么当样本结果只能是一个或另一个,或者两者都不是时,为什么要在两个极端之间分配alpha值。 以上面引用的文本为例。您怎么可能在相反方向上“无法测试”结果?您有样本均值。你有人口平均数。简单的算术告诉您哪个更高。在相反的方向上有哪些测试或失败测试?如果您清楚地看到样本均值偏离了另一个方向,是什么使您从头开始却有了相反的假设呢? 同一页上的另一句话: 在运行无法拒绝原假设的二尾检验之后选择一尾检验是不合适的,无论二尾检验与显着性有多“接近”。 我认为这也适用于切换单尾测试的极性。但是,与您只选择了正确的单尾测试一开始相比,这种“医生化”结果的有效性如何呢? 显然,我在这里错过了大部分图片。这一切似乎太武断了。从某种意义上说,这是什么意思,即“具有统计意义的意义”-95%,99%,99.9%...首先是任意的。

3
解释xkcd软糖漫画:是什么使它有趣?
我看到一个超时它们运行的20次总的测试,,所以他们错误地认为,二十测试之一中,其结果是显著(0.05 = 1 / 20)。p&lt;0.05p&lt;0.05p < 0.050.05=1/200.05=1/200.05 = 1/20 xkcd果冻豆漫画-“重要” 标题:重要 悬停文字:“所以,呃,我们再次进行了绿色研究,但没有任何联系。这可能是-''研究发现冲突于绿色果冻豆/痤疮链接;建议进行更多研究!”

6
Fisher和Neyman-Pearson方法之间进行统计测试的“混合”真的是“不连贯的杂烩”吗?
存在某种思想流派,据此,最广泛的统计检验方法是两种方法之间的“混合”:费舍尔方法和内曼-皮尔森方法;声称,这两种方法是“不兼容的”,因此产生的“混合”是“不相干的杂烩”。我将在下面提供参考书目和一些引号,但就目前而言,在Wikipedia上有关统计假设检验的文章中已经写了很多。在简历上,@ Michael Lew反复提出了这一点(请参见此处和此处)。 我的问题是:为什么声称F和NP方法不兼容,为什么混合方法不连贯?请注意,我至少阅读了六篇反混合论文(请参阅下文),但仍然无法理解问题或论点。还请注意,我不建议讨论F还是NP是否是更好的方法。我也没有提出讨论常客与贝叶斯框架。相反,问题是:如果接受F和NP都是有效且有意义的方法,那么它们的混合到底有什么不好呢? 这是我对情况的了解。Fisher的方法是计算值,并将其作为反对原假设的证据。越小,证据越有说服力。研究人员应该将此证据与他的背景知识相结合,确定其是否足以令人信服,并据此进行研究。(请注意,费舍尔的观点多年来一直在变化,但这似乎是他最终收敛的。)相比之下,内曼·皮尔森的方法是提前选择,然后检查p α p ≤ αppppppαα\alphap ≤ αp≤αp\le\alpha; 如果是这样,则将其称为有意义的,并拒绝零假设(在此,我省略了与当前讨论无关的NP故事的大部分内容)。另请参见@gung在何时使用Fisher和Neyman-Pearson框架中的出色答复。 混合方法是计算值,将其报告(隐式假设值越小越好),如果(通常为),则结果也显着,否则为非显着性。这应该是不连贯的。同时击败两个合法的事情怎么可能是无效的。p ≤ α α = 0.05pppp ≤ αp≤αp\le\alphaα = 0.05α=0.05\alpha=0.05 由于特别不连贯,抗杂交主义者认为报告的普遍做法是,或(甚至),其中总是选择最强的不等式。该论点似乎是:(a)由于没有报告确切的而无法正确评估证据的强度,(b)人们倾向于将不等式中的右手数字解释为并将其视为I型错误。率,那是错误的。我在这里看不到大问题。首先,报告精确的当然是更好的做法,但是没有人真正关心是否为或p &lt; 0.05 p &lt; 0.01 p &lt; 0.001 p « 0.0001 p α p p 0.02 0.03 〜0.0001 0.05 α = 0.05 p ≠ α αpppp &lt; …

2
事后测试之前是否需要进行全局测试?
我经常听到,只有在ANOVA本身很重要的情况下,才能使用ANOVA之后的事后测试。 但是,事后测试会调整以使I类全局错误率保持在5%,不是吗?ppp 那么,为什么我们首先需要进行全局测试? 如果我们不需要全局测试,那么“事后”术语是否正确? 还是有多种事后测试,有些假设了重要的整体测试结果,而另一些则没有这种假设?

4
在t检验中根据t值手动计算P值
我有一个31个值的样本数据集。我使用R进行了两尾t检验,以检验真实均值是否等于10: t.test(x=data, mu=10, conf.level=0.95) 输出: t = 11.244, df = 30, p-value = 2.786e-12 alternative hypothesis: true mean is not equal to 10 95 percent confidence interval: 19.18980 23.26907 sample estimates: mean of x 21.22944 现在,我正在尝试手动执行相同的操作: t.value = (mean(data) - 10) / (sd(data) / sqrt(length(data))) p.value = dt(t.value, df=length(lengths-1)) 使用此方法计算的t值与t检验R函数的输出相同。但是,p值为3.025803e-12。 …


3
对数转换的预测变量和/或响应的解释
我想知道是否仅对因变量(无论是因变量还是自变量)还是仅对自变量进行了对数转换,在解释上是否有所不同。 考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长,但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

4
为什么统计学家说不重要的结果意味着“您不能拒绝零”而不是接受零假设?
像两个样本t检验一样,传统的统计检验集中在试图消除以下假设:两个独立样本的函数之间没有差异。然后,我们选择一个置信度,并说如果均值差超过95%,我们可以拒绝原假设。如果不是,我们“不能拒绝原假设”。这似乎意味着我们也不能接受它。这是否意味着我们不确定原假设是否成立? 现在,我想设计一个假设是两个样本的函数相同的检验(这与假设两个样本不同的传统统计检验相反)。因此,我的原假设是两个样本不同。我应该如何设计这样的测试?简单地说,如果p值小于5%,我们可以接受没有显着差异的假设吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.