Questions tagged «p-value»

在常识假设检验中, p-值是在假设无效的假设为真的情况下,结果大于或大于观察结果的概率。


2
了解p值
我知道有很多材料可以解释p值。但是,如果不进一步澄清,很难轻易牢牢把握这个概念。 这是Wikipedia中p值的定义: p值是假设零假设为真,则获得至少与实际观察到的极端一样的检验统计量的概率。(http://en.wikipedia.org/wiki/P-value) 分钟[ P(X&lt; x),P( x &lt; X)]min[P(X&lt;x),P(x&lt;X)]\min[P(X<x),P(x<X)],如果统计量的PDF是单峰的,则是检验统计量,而是其从观察中获得的值。这是正确的吗?如果正确,使用统计的双峰PDF是否仍然适用?如果PDF的两个峰很好地分开,并且观测值在两个峰之间的低概率密度区域中的某个位置,则p值给出哪个概率?XXXXXxx 的第二个问题是关于从钨MathWorld p值的另一种定义: 变量严格地偶然采用大于或等于观察值的概率。(http://mathworld.wolfram.com/P-Value.html) 我了解到“严格地偶然”一词应解释为“假设无效假设”。那正确吗? 在第三个问题关于使用“零假设”的。假设有人要坚持认为硬币是公平的。他表达了这样的假设,即头部的相对频率为0.5。那么零假设是“磁头的相对频率不是0.5”。在这种情况下,尽管难以计算原假设的p值,但对于替代假设而言,计算却很容易。当然,可以通过互换两个假设的作用来解决问题。我的问题是,直接基于原始替代假设的p值(不引入无效假设)的拒绝或接受是可以的。如果还不行,那么在计算原假设的p值时针对此类困难的通常解决方法是什么? 我发布了一个新问题,该问题根据该主题中的讨论得到进一步阐明。

4
在粒子物理学中接受证据的“ 5 ”阈值的由来?
新闻报道称,欧洲核子研究中心将在明天宣布,希格斯玻色子已通过5个证据得到了实验检测。根据该文章:σσ\sigma 5表示CMS和ATLAS检测器看到的数据不仅仅是随机噪声,而且有99.99994%的概率,并且有0.00006%的概率被蒙蔽了;5是被正式标记为科学“发现”的必要确定性。σσ\sigmaσσ\sigma 这不是很严格,但是似乎可以说物理学家使用标准的“假设检验”统计方法,将设置为,它对应于(两尾)?还是还有其他含义?αα\alpha0.00000060.00000060.0000006z=5z=5z=5 当然,在许多科学中,通常将alpha设置为0.05。这将等效于“ two- ”证据,尽管我从未听说过这种说法。是否有其他领域(除了粒子物理学之外)对α的定义更为严格?有人知道规则如何被粒子物理学所接受的参考吗?σσ\sigmaσσ\sigma 更新:我问这个问题的原因很简单。我的《直觉生物统计学》一书(与大多数统计书籍一样)的一节解释了通常的“ P &lt;0.05”规则的任意性。我想添加一个科学领域的例子,其中值要小得多。但是,如果使用贝叶斯方法(如下面的一些注释所示)实际上使示例更加复杂,那么它就不太合适或需要更多解释。αα\alpha


2
可视化数据后执行统计测试-数据挖掘?
我将通过一个示例提出这个问题。 假设我有一个数据集,例如波士顿住房价格数据集,其中有连续的和分类的变量。在这里,我们有一个“质量”变量(从1到10)和销售价格。通过(任意)创建质量截止值,我可以将数据分为“低”,“中”和“高”质量房屋。然后,使用这些分组,我可以绘制销售价格的直方图。像这样: 在此,“低”是,和“高”是&gt; 7上的“质量”的分数。现在,我们可以得出三个组中每个组的销售价格分布。显然,中型和高质量房屋的位置中心不同。现在,完成所有这些操作后,我认为“嗯。位置中心似乎有所不同!为什么不对均值进行t检验?”。然后,我得到一个p值,它似乎正确地拒绝了均值没有差异的零假设。≤ 3≤3\leq 3&gt; 7&gt;7>7 现在,假设在绘制数据之前,我没有想到要检验此假设。 这是在挖泥吗? 如果我想:“我敢打赌,优质房子的价格会更高,因为我以前是住在这所房子里的人。我要对数据进行绘图。啊哈!看起来不一样!时间还在吗?”进行t检验!” 自然地,如果收集数据集是为了一开始就检验这个假设,那不是数据挖掘。但是通常必须处理提供给我们的数据集,并被告知“寻找模式”。考虑到这个模糊的任务,某人如何避免数据挖掘?创建测试数据的保留集?可视化是否“算作”窥探机会来测试数据提出的假设?

2
“ p值”的确切值是否没有意义?
早在2009年,我就曾与统计学家进行过讨论,他说p值的确切值无关紧要:唯一重要的是它是否有意义。即一个结果不能比另一个结果更重要;例如,您的样本来自同一人群,也可能来自不同人群。 我对此有些疑惑,但我也许可以理解其意识形态: 5%的阈值是任意的,即p = 0.051并不重要,而p = 0.049则不应真正改变观察或实验的结论,尽管一个结果很重要而另一个结果不重要。 我之所以提出这一点,是因为我正在研究生物信息学理学硕士学位,并且与该领域的人们交谈之后,似乎有坚定的决心要为他们所做的每组统计数据获取准确的p值。例如,如果他们“实现” p &lt;1.9×10 -12的p值,则他们想证明其结果的显着性,并且该结果具有丰富的信息。通过以下问题举例说明了此问题:为什么我的p值不能小于2.2e-16?,因此他们希望记录一个值,该值指示仅凭偶然这将小于万亿分之一。但是,在证明这一结果发生在万亿分之一以下而不是十亿分之一中,我看不出有什么区别。 那么我可以理解,p &lt;0.01表明发生这种情况的可能性不到1%,而p &lt;0.001表明这样的结果比上述p值更不可能发生,但是您得出的结论应该是完全不同?毕竟它们都是重要的p值。我想想想记录确切的p值的唯一方法是在Bonferroni校正过程中,由于比较次数的原因,阈值会发生变化,从而减少了I型错误。但是,即使如此,为什么还要显示一个比阈值有效值小12个数量级的p值? 而且,应用Bonferroni校正本身不是也有些随意吗?从某种意义上说,最初的校正被认为是非常保守的,因此可以进行其他校正,以选择观察者可用于其多次比较的显着性水平。但是正因为如此,根据研究人员想要使用的统计数据,事情并不是变得很重要就本质上不是可变的。统计数据应该这么开放吗? 总之,统计数据是否应该主观性更好(尽管我猜想它需要主观性是多变量系统的结果),但最终我需要澄清一下:某事是否比别的事重要?而且,p &lt;0.001是否足以记录准确的p值?

4
较小的p值是否更有说服力?
我一直在阅读,1型错误率,显着性水平,功效计算,效应大小以及Fisher与Neyman-Pearson的争论。这让我感到有些不知所措。我为案文感到抱歉,但是在继续讨论实际问题之前,有必要概述一下我对这些概念的当前理解。ppp 根据我收集到的信息,值只是惊喜的度量,假定原假设为真,则获得结果的可能性至少为极端。费舍尔原本打算将其作为一项连续措施。ppp 在Neyman-Pearson框架中,您预先选择一个重要级别,并将其用作(任意)截止点。显着性级别等于1类错误率。它由长期运行频率定义,即,如果您要重复进行1000次实验,并且原假设为真,那么由于采样的可变性,其中约有50个实验会产生显着效果。通过选择显着性水平,我们以一定的概率防范这些误报。传统上,不会出现在此框架中。PPP 如果我们发现一个的0.01 -值但这并不意味着1型错误率是0.01,1型错误陈述先验的。我相信这是Fisher与NP辩论中的主要论据之一,因为通常报告为0.05 *,0.01 **,0.001 ***。这可能会误导人们说效果是在某个p值而不是某个显着性值上显着的。ppppppppp 我还意识到ppp值是样本大小的函数。因此,它不能用作绝对测量。较小的ppp值可能表示在大型样品实验中产生较小的无关影响。为了解决这个问题,在确定实验的样本量时执行功效/效应量计算很重要。PPP告诉我们是否有影响,而不是影响有多大。参见Sullivan 2012。 我的问题: 我该如何调和ppp值是一种惊喜度量(更小=更具说服力),同时又不能将其视为绝对度量的事实? 我感到困惑的是:我们能否对小ppp值比大p值更有信心?从渔业的角度来说,我会说是的,我们感到更加惊讶。在NP框架中,选择较小的显着性水平意味着我们将更加严格地防范误报。 但另一方面,ppp取决于样本量。它们不是绝对的措施。因此,我们不能简单地说0.001593 比0.0439 有意义。然而,这在费舍尔的框架中将隐含着这样的含义:我们会对如此极端的价值感到惊讶。甚至有关于“ 高度重要 ”一词用词错误的讨论:将结果称为“高度重要”是否错误? 我听说,某些科学领域的ppp仅在小于0.0001时才被认为是重要的,而在其他领域,大约0.01的值已经被认为具有很高的意义。 相关问题: Fisher和Neyman-Pearson方法之间进行统计测试的“混合”真的是“不连贯的杂烩”吗? 何时使用Fisher和Neyman-Pearson框架? “ p值”的确切值是否没有意义? 与I型错误有关的p值的频繁属性 置信区间与P值的两种平均值 为什么较低的p值不能提供更多的证据来证明原值?Johansson 2011的论点(由@amoeba提供)

4
为什么较低的p值不能提供更多的证据来证明原值?2011年约翰逊的观点
Johansson(2011)在“ 向不可能的事物致敬:p值,证据和可能性 ”(也与期刊链接)中指出,较低的通常被认为是抵制零值的有力证据。约翰逊(Johansson)暗示,如果他们的统计检验输出值为,那么人们会认为反对零值的证据要比他们的统计检验输出值为更好。Johansson列出了无法将值用作反对null的证据的四个原因:pppppp0.010.010.01ppp0.450.450.45ppp ppp is uniformly distributed under the null hypothesis and can therefore never indicate evidence for the null. ppp is conditioned solely on the null hypothesis and is therefore unsuited to quantify evidence, because evidence is always relative in the sense of being evidence for or against a …

3
容纳根深蒂固的p值视图
有时在报告中,我会提供有关p值和我提供的其他推论统计信息的免责声明。我说由于样本不是随机的,因此此类统计数据将不严格适用。我的具体措辞通常在脚注中给出: “虽然严格地说,推理统计仅适用于随机抽样,但我们遵循惯例报告重要程度和/或置信区间,即使对于非随机样本也作为方便的准绳。请参阅迈克尔·奥克斯的 统计推断:关于社会和社会的评论行为科学 (NY:Wiley,1986)。 在某些情况下(一次是同行评审论文,一次是非学术性论文,一次是两次),编辑或审稿人对此免责声明表示反对,称其令人困惑,并认为推论性结论应与书面陈述相符。 (并获得权威的保护)。有没有其他人遇到这个问题并找到了一个好的解决方案?一方面,即使是在随机抽样的情况下,人们对p值的理解通常也是令人沮丧的,因此我们所说的内容无关紧要。另一方面,进一步加剧误解似乎是问题的一部分。我应该补充一点,我经常处理调查研究,在这些研究中,不应用随机分配,并且在其中蒙特卡罗模拟通常不能解决代表性问题。

2
谁首先使用/发明了p值?
我试图写一系列有关p值的博客文章,我认为回到所有起点很有趣-这似乎是Pearson的1900年论文。如果您熟悉那篇论文,您会记住这涵盖了拟合优度测试。 在涉及p值时,Pearson的语言有些松懈。他在描述如何解释其p值时反复使用“奇数”。例如,在第168页中,当谈到重复掷12个骰子的结果时,他说“ ...导致我们得出P = .0000016,或者相对于这样的随机偏差系统,赔率是62499对1有了这样的几率,就可以合理地得出结论,骰子表现出对更高点的偏见。 ” 在本文中,他提到了较早的作品,包括1891年Merriman撰写的关于最小二乘法的书。 但是Pearson确实为p值(拟合检验的卡特卡方差)进行了计算。 皮尔森(Pearson)是第一个认识p值的人吗?当我搜索p值时,提到了费舍尔-他的工作是在1920年代。 编辑:感谢您提到拉普拉斯(Laplace)-他似乎没有解决零假设(皮尔逊似乎隐含地这样做,尽管他从未在1900年的论文中使用该术语)。培生(Pearson)从以下方面看拟合检验的优劣:假设计数是从无偏过程中得出的,那么观察到的计数(以及计数更加偏差)从假设的分布中产生的概率是多少? 他对概率/奇数的处理(他将概率转换为几率)表明他正在对原假设进行隐式设计。至关重要的是,他还提到x ^ 2值引起的概率表明,相对于他现在计算出的p值,“相对于我们现在所认识的语言,这种偏离系统是不可能的或比现在更不可能的”。 阿布诺没有走那么远吗? 随时将您的评论作为答案。很高兴看到讨论。

5
单个研究人员应如何考虑错误发现率?
我一直在努力探索错误发现率(FDR)应该如何告知个别研究人员的结论。例如,如果您的研究动力不足,即使在结果显着,您是否应该打折呢?注意:我在谈论FDR时是在综合检查多项研究结果的背景下,而不是将其作为多项测试校正的方法。α=.05α=.05\alpha = .05 使(也许大方)假设测试的假设实际上是真,FDR是两种类型的函数I和II型错误率如下:∼.5∼.5\sim.5 FDR=αα+1−β.FDR=αα+1−β.\text{FDR} = \frac{\alpha}{\alpha+1-\beta}. 有理由认为,如果一项研究的能力不足,那么即使结果显着,我们也不应像进行充分研究的结果那样相信结果。因此,正如某些统计学家所说,在某些情况下,“长远来看”,如果遵循传统准则,我们可能会发布许多错误的重要结果。如果一项研究的特点是始终缺乏足够的研究能力(例如,前十年的候选基因环境相互作用文献),那么甚至有重复的重大发现也可能是可疑的。××\times 应用R包extrafont,ggplot2和xkcd,我认为这可能会有用地概念化为一个透视问题: 有了这些信息,研究人员下一步应该做什么?如果我猜测我正在研究的效应的大小(因此,鉴于我的样本量,则估计为),我是否应该调整我的α水平直到FDR = .05?即使我的研究能力不足,我是否应该以α = .05的水平发布结果,并将FDR的考虑留给文献消费者?1−β1−β1 - \betaαα\alphaα=.05α=.05\alpha = .05 我知道这是一个在本网站和统计文献中都经常讨论的话题,但是我似乎无法就此问题达成共识。 编辑:响应@amoeba的评论,FDR可以从标准的I型/ II型错误率偶发表中得出(请避免其丑陋): | |Finding is significant |Finding is insignificant | |:---------------------------|:----------------------|:------------------------| |Finding is false in reality |alpha |1 - alpha | |Finding is true in reality |1 - beta |beta | …


4
许多p值的均匀分布是否提供H0为真的统计证据?
单个统计检验可以证明无效假设(H0)为假,因此替代假设(H1)为真。但这不能用来表明H0为真,因为未能拒绝H0并不意味着H0为真。 但是,让我们假设您有可能进行多次统计检验,因为您有许多彼此独立的数据集。所有数据集都是同一过程的结果,您想对过程本身做出一些声明(H0 / H1),并且对每个测试的结果都不感兴趣。然后,您收集所有得到的p值,并通过直方图碰巧看到p值明显均匀地分布。 我现在的推理是,只有在H0为true时才会发生这种情况,否则p值的分布将有所不同。因此,这是否足以证明H0为真?还是我在这里缺少一些重要的东西,因为我花了很多心血来写“得出H0为真”的结论,这在我看来真是太过错误了。

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

3
使用带有R的引导程序计算p值
我使用“ boot”包来计算近似的两面自举p值,但是结果与使用t.test的p值相差太远。我无法弄清楚我在R代码中做错了什么。有人可以给我一个提示吗 time = c(14,18,11,13,18,17,21,9,16,17,14,15, 12,12,14,13,6,18,14,16,10,7,15,10) group=c(rep(1:2, each=12)) sleep = data.frame(time, group) require(boot) diff = function(d1,i){ d = d1[i,] Mean= tapply(X=d$time, INDEX=d$group, mean) Diff = Mean[1]-Mean[2] Diff } set.seed(1234) b3 = boot(data = sleep, statistic = diff, R = 5000, strata=sleep$group) pvalue = mean(abs(b3$t) &gt; abs(b3$t0)) pvalue 两面自举的p值(pvalue)= 0.4804,但t.test的两面p值为0.04342。两个p值的差约为11倍。怎么会这样

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.