Questions tagged «hypothesis-testing»

假设检验评估数据是否与给定假设不一致,而不是随机波动的影响。

8
如何检验无群体差异的假设?
假设您有一个由两组(例如,男性和女性)组成的研究,研究了一个数字因变量(例如,智力测验分数),并且您假设没有组差异。 题: 有什么好的方法可以测试是否存在小组差异? 您将如何确定充分测试无组差异所需的样本量? 初步想法: 仅仅进行标准的t检验是不够的,因为不能拒绝原假设就并不意味着关注的参数等于或接近于零。对于小样本尤其如此。 我可以查看95%的置信区间,并检查所有值是否都在足够小的范围内;也许正负0.3标准偏差。

6
可信区域和贝叶斯假设检验之间有什么联系?
在常客统计中,置信区间和检验之间存在紧密的联系。使用推理约在分布作为一个例子,将置信区间 包含在重要性级别上未被检验拒绝的所有值。Ñ (μ ,σ 2)1 - α ˉ X ± 吨α / 2(Ñ - 1 )⋅ 小号/ √μμ\muN(μ,σ2)N(μ,σ2)\rm N(\mu,\sigma^2)1−α1−α1-\alpha μ吨αx¯±tα/2(n−1)⋅s/n−−√x¯±tα/2(n−1)⋅s/n\bar{x}\pm t_{\alpha/2}(n-1)\cdot s/\sqrt{n}μμ\mutttαα\alpha 从这个意义上讲,频繁的置信区间是倒置测试。(顺便说一句,这意味着我们可以将值解释为的最小值,为此参数的空值将包含在置信区间中。我发现这可能是一种有用的方法,向了解一些统计信息的人解释真正含义。)α 1 - α ppppαα\alpha1−α1−α1-\alphappp 在阅读了贝叶斯可信区域的决策理论基础后,我开始怀疑可信区域与贝叶斯测试之间是否存在类似的联系/对等关系。 有一般的联系吗? 如果没有常规连接,是否存在连接的示例? 如果没有一般的联系,我们怎么看?

6
效应大小作为重要性检验的假设
今天,在交叉验证期刊俱乐部(为什么不在那里?),@ mbq问: 您认为我们(现代数据科学家)知道重要性意味着什么吗?以及它如何关系到我们对结果的信心? @Michelle回答说(包括我在内)通常会这样做: 随着我继续职业生涯,发现重要性概念(基于p值)的帮助越来越少。例如,我可以使用非常大的数据集,因此所有数据在统计上都是有意义的(p&lt;.01p&lt;.01p<.01) 这可能是一个愚蠢的问题,但这不是检验假设的问题吗?如果您检验零假设“ A等于B”,那么您知道答案是“否”。更大的数据集只会使您更接近这个不可避免的真实结论。我相信正是戴明(Deming)曾经举过一个假设的例子:“羔羊右侧的头发数量等于其左侧的头发数量”。好吧,当然不是。 更好的假设是“ A与B的相差不大。” 或者,在羔羊示例中,“羔羊侧面的毛发数量相差不超过X%”。 这有意义吗?


1
为什么我的p值在逻辑回归输出,卡方检验和OR的置信区间之间有所不同?
我建立了Logistic回归,其中在接受治疗后(Curevs. No Cure)治愈了结果变量。本研究中所有患者均接受治疗。我有兴趣查看是否患有糖尿病与该结局有关。 在R中,我的逻辑回归输出如下所示: Call: glm(formula = Cure ~ Diabetes, family = binomial(link = "logit"), data = All_patients) ... Coefficients: Estimate Std. Error z value Pr(&gt;|z|) (Intercept) 1.2735 0.1306 9.749 &lt;2e-16 *** Diabetes -0.5597 0.2813 -1.990 0.0466 * ... Null deviance: 456.55 on 415 degrees of freedom Residual deviance: 452.75 …

3
Bootstrap vs.排列假设检验
有几种流行的重采样技术,通常在实践中使用,例如自举,置换测试,折刀等。有许多文章和书籍讨论了这些技术,例如Philip I Good(2010)置换,参数化和自举测试假设 我的问题是,哪种重采样技术已经越来越流行并且更易于实施?自举或置换测试?

5
p值本质上是无用的且使用危险吗?
纽约时报的这篇文章“ 赔率,不断更新”引起了我的注意。简而言之,它指出 [贝叶斯统计]已证明在解决复杂问题时特别有用,包​​括像海岸警卫队在2013年使用的搜索来寻找失踪的渔夫约翰·奥尔德里奇(尽管到目前为止,在寻找马来西亚航空370号班机的过程中)。 ......,从物理学到癌症研究,从生态学到心理学,贝叶斯统计数据遍地开花... 在这篇文章中,还对常客的p值提出了一些批评,例如: 如果p值小于5%,则通常认为结果具有“统计学意义”。哥伦比亚大学统计学教授安德鲁·盖尔曼(Andrew Gelman)表示,但是这种传统存在危险。即使科学家总是正确地进行了计算(但他们没有这样做),接受p值为5%的所有内容也意味着20个“具有统计意义”的结果只是随机噪声。 除上述之外,也许最著名的批评p值的论文就是《自然方法》一书,作者是Regina Nuzzo的《科学方法:统计误差》,其中讨论了许多由p值方法引起的科学问题,例如重现性问题, p值骇客等 P值是统计有效性的“黄金标准”,不像许多科学家所认为的那样可靠。……也许最糟糕的谬论是自欺欺人,宾夕法尼亚大学的心理学家乌里·西蒙索恩(Uri Simonsohn)及其同事已经普及了“ P-hacking”一词。它也被称为数据挖掘,侦听,钓鱼,重要性追踪和两次浸渍。Simonsohn说:“ P黑客正在尝试多种方法,直到获得期望的结果为止”,甚至是在不知不觉中。......……“这一发现似乎是通过p-hacking获得的,作者放弃了其中一个条件,以使整体p值小于.05”,而“她是p-hacker,她总是在收集数据时监视数据。” 另一件事是一个有趣的情节从下面这里,有关剧情的评论: 无论您的影响有多小,您都可以始终努力收集数据以超过p &lt;.05的阈值。只要不存在您要研究的影响,p值就可以衡量您为收集数据付出了多少努力。 综上所述,我的问题是: 第二段引文中的安德鲁·盖尔曼的论点到底意味着什么?他为什么将5%的p值解释为“ 20个具有统计学意义的结果中有1个是随机噪声”?我不相信,因为对我而言,p值可用于一项研究的推断。他的观点似乎与多重测试有关。 更新:有关此内容,请查看安德鲁·盖尔曼(Andrew Gelman)的博客:不,我没有这么说!(提供给@ Scortchi,@ whuber)。 CpCpC_p 是否有使用p值进行统计分析的良好实践指导,可以得出更可靠的研究结果? 正如某些统计学家所倡导的那样,贝叶斯建模框架会是更好的方法吗?具体来说,贝叶斯方法是否更有可能解决错误的发现或处理数据问题?由于先验在贝叶斯方法中非常主观,因此我在这里也不确信。是否有任何实践和知名的研究表明贝叶斯方法比常客的p值更好,或者至少在某些特定情况下,这种观点更好? 更新:对于是否存在贝叶斯方法比常客主义的p值方法更可靠的情况,我将特别感兴趣。“可靠”是指贝叶斯方法不太可能操纵数据以获得所需结果。有什么建议么? 更新6/9/2015 刚注意到这个消息,并认为将其放在此处进行讨论会很好。 心理学杂志禁止P值 一项有争议的统计测试终于结束了,至少在一本期刊上如此。本月初,《基本与应用社会心理学》(BASP)的编辑宣布该期刊将不再发表包含P值的论文,因为统计数据经常被用来支持低质量的研究。 与最近的论文一起,《自然》杂志关于“ P值”的“善变的P值产生了无法再现的结果”。 更新5/8/2016 早在三月,美国统计协会(ASA)就统计意义和p值发布了声明,“ .... ASA声明旨在将研究引导到'p &lt;0.05后时代'。” 该语句包含6条解决p值滥用的原则: P值可以指示数据与指定的统计模型不兼容的程度。 P值不能衡量所研究假设为真的概率,也不能衡量仅由随机机会产生数据的概率。 科学结论和业务或政策决策不应仅基于p值是否超过特定阈值。 正确的推理需要完整的报告和透明度。 p值或统计显着性不能衡量效果的大小或结果的重要性。 就其本身而言,p值不能很好地证明有关模型或假设的证据。 详细信息: “ ASA关于p值的声明:上下文,过程和目的”。

3
假设检验中p值的解释
我最近碰到了杰夫·吉尔(Jeff Gill)(1999)的论文“零假设假设意义检验的无意义”。作者对假设检验和p值提出了一些常见的误解,对此我有两个具体问题: p值从技术上讲是,正如论文所指出的,通常不会告诉我们有关,除非我们碰巧知道边际分布,否则在“日常”假设检验中很少出现这种情况。当我们获得一个小的p值并“拒绝原假设”时,由于我们无法说出有关任何信息,我们正在做的概率陈述到底是什么?P (H ^ 0 | ö b 小号Ë - [R v 一个吨我ö Ñ)P (H ^ 0 | ö b 小号Ë - [R v 一个吨我ö Ñ)P(observation|H0)P(observation|H0)P({\rm observation}|H_{0})P(H0|observation)P(H0|observation)P(H_{0}|{\rm observation})P(H0|observation)P(H0|observation)P(H_{0}|{\rm observation}) 第二个问题与论文第6(652)页的特定陈述有关: 由于没有事先设定p值或星号指示的p值范围,因此它不是产生I型错误的长期可能性,而是通常被视为此类错误。 任何人都可以帮助解释此声明的含义吗?


5
自相关测试:Ljung-Box与Breusch-Godfrey
我习惯于看到Ljung-Box测试非常频繁地用于测试原始数据或模型残差中的自相关。我几乎忘记了还有另一个自相关检验,即布劳希-哥德弗雷检验。 问题: Ljung-Box和Breusch-Godfrey检验的主要区别和相似之处是什么?何时应优先选择另一个? (欢迎提供参考。尽管我看了几本教科书并在线搜索了材料,但是我还是无法找到这两个测试的任何比较。我能够分别找到每个测试的描述,但是我感兴趣的是两者的比较。)

4
单尾假设检验的理由
我了解两尾假设检验。您有(vs.)。的 -值是概率至少极端如所观察到的数据生成。ħ 1 = ¬ ħ 0:θ ≠ θ 0 p θH0:θ = θ0H0:θ=θ0H_0 : \theta = \theta_0H1个= ¬ 高0:θ ≠ θ0H1=¬H0:θ≠θ0H_1 = \neg H_0 : \theta \ne \theta_0pppθθ\theta 我不理解单尾假设检验。在这里,(相对于)。p值的定义不应从上面改变:它仍然应该是生成至少与所观察到的极端数据一样大的概率。但是我们不知道,只是它是。ħ 1 = ¬ ħ 0:θ &gt; θ 0 θ θ θ 0H0:θ ≤ θ0H0:θ≤θ0H_0 : \theta\le\theta_0H1个= ¬ 高0:θ &gt; θ0H1=¬H0:θ&gt;θ0H_1 …

3
线性回归中的显着矛盾:系数的显着t检验与总体F统计量的不显着
我正在4个类别变量(每个有4个级别)和一个数值输出之间拟合多元线性回归模型。我的数据集有43个观测值。 回归为每个斜率系数提供了检验的以下:。因此,第4个预测变量的系数在置信度下很重要。pppttt.15,.67,.27,.02.15,.67,.27,.02.15, .67, .27, .02α=.05α=.05\alpha = .05 另一方面,从我所有斜率系数都为零的零假设的整体检验中,回归给出了值。对于我的数据集,此值为。pppFFFppp.11.11.11 我的问题:我应该如何解释这些结果?其中ppp我应该使用值,为什么?在α = 0.05的置信度下,第4个变量的系数是否与000显着不同?α=.05α=.05\alpha = .05 我已经看到了相关的问题,FFF和ttt的回归统计,但有相反的情况:高ttt -test ppp -值和低FFF -test ppp -值。老实说,我不太了解为什么除了t检验外还需要FFF检验,以了解线性回归系数是否显着不同于零。ttt

3
手动计算逻辑回归95%置信区间与在R中使用confint()函数之间为什么会有区别?
亲爱的大家-我注意到我无法解释的怪事,可以吗?总之:在logistic回归模型中计算置信区间的手动方法和R函数confint()得出不同的结果。 我一直在研究Hosmer&Lemeshow的Applied Logistic回归(第二版)。在第3章中,有一个计算比值比和95%置信区间的示例。使用R,我可以轻松地重现模型: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(&gt;|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

2
了解p值
我知道有很多材料可以解释p值。但是,如果不进一步澄清,很难轻易牢牢把握这个概念。 这是Wikipedia中p值的定义: p值是假设零假设为真,则获得至少与实际观察到的极端一样的检验统计量的概率。(http://en.wikipedia.org/wiki/P-value) 分钟[ P(X&lt; x),P( x &lt; X)]min[P(X&lt;x),P(x&lt;X)]\min[P(X<x),P(x<X)],如果统计量的PDF是单峰的,则是检验统计量,而是其从观察中获得的值。这是正确的吗?如果正确,使用统计的双峰PDF是否仍然适用?如果PDF的两个峰很好地分开,并且观测值在两个峰之间的低概率密度区域中的某个位置,则p值给出哪个概率?XXXXXxx 的第二个问题是关于从钨MathWorld p值的另一种定义: 变量严格地偶然采用大于或等于观察值的概率。(http://mathworld.wolfram.com/P-Value.html) 我了解到“严格地偶然”一词应解释为“假设无效假设”。那正确吗? 在第三个问题关于使用“零假设”的。假设有人要坚持认为硬币是公平的。他表达了这样的假设,即头部的相对频率为0.5。那么零假设是“磁头的相对频率不是0.5”。在这种情况下,尽管难以计算原假设的p值,但对于替代假设而言,计算却很容易。当然,可以通过互换两个假设的作用来解决问题。我的问题是,直接基于原始替代假设的p值(不引入无效假设)的拒绝或接受是可以的。如果还不行,那么在计算原假设的p值时针对此类困难的通常解决方法是什么? 我发布了一个新问题,该问题根据该主题中的讨论得到进一步阐明。

4
在粒子物理学中接受证据的“ 5 ”阈值的由来?
新闻报道称,欧洲核子研究中心将在明天宣布,希格斯玻色子已通过5个证据得到了实验检测。根据该文章:σσ\sigma 5表示CMS和ATLAS检测器看到的数据不仅仅是随机噪声,而且有99.99994%的概率,并且有0.00006%的概率被蒙蔽了;5是被正式标记为科学“发现”的必要确定性。σσ\sigmaσσ\sigma 这不是很严格,但是似乎可以说物理学家使用标准的“假设检验”统计方法,将设置为,它对应于(两尾)?还是还有其他含义?αα\alpha0.00000060.00000060.0000006z=5z=5z=5 当然,在许多科学中,通常将alpha设置为0.05。这将等效于“ two- ”证据,尽管我从未听说过这种说法。是否有其他领域(除了粒子物理学之外)对α的定义更为严格?有人知道规则如何被粒子物理学所接受的参考吗?σσ\sigmaσσ\sigma 更新:我问这个问题的原因很简单。我的《直觉生物统计学》一书(与大多数统计书籍一样)的一节解释了通常的“ P &lt;0.05”规则的任意性。我想添加一个科学领域的例子,其中值要小得多。但是,如果使用贝叶斯方法(如下面的一些注释所示)实际上使示例更加复杂,那么它就不太合适或需要更多解释。αα\alpha

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.