Questions tagged «hypothesis-testing»

假设检验评估数据是否与给定假设不一致,而不是随机波动的影响。

5
为什么这些陈述在逻辑上不符合95%CI的逻辑?
我一直在阅读Hoekstra等人在2014年发表的有关“对置信区间进行鲁棒性误解”的论文,该论文是从Wagenmakers网站上下载的。 在倒数第二页上,出现以下图像。 根据作者的说法,False是所有这些陈述的正确答案。我不太确定为什么这些陈述是错误的,据我所知,本文的其余部分并未试图解释这一点。 我相信1-2和4是不正确的,因为当真实均值具有一个未知的确定值时,它们会断言真实均值的可能值。这是一个令人信服的区别吗? 关于3,我理解一个人无意对原假设不正确的可能性做出断言,尽管我不确定原因。 同样,6也不能成立,因为这意味着真正的平均值在各个实验之间都在变化。 我完全不了解的那个是5。为什么那是错误的?如果我有一个过程在95%的时间内生成的CI包含真实均值,为什么我不说我有95%的置信度,即总体价值在0.1到0.4之间?是因为我们可能对刚刚获取的样本有一些特殊信息,使我们认为这很可能是不包含真实均值的5%之一?例如,置信区间中包括0.13,并且由于某些原因,在某些特定的研究范围内,0.13未被认为是合理的值,例如,因为该值将与先前的理论相抵触。 无论如何,信心在这种情况下意味着什么?

3
用很小的样本量(例如n = 6)测试正态性是否有意义?
我的样本大小为6。在这种情况下,使用Kolmogorov-Smirnov检验来检验正态性是否有意义?我使用了SPSS。我的样本量很小,因为获取每个样本都需要时间。如果没有意义,那么最低数量的样本中有多少个是有意义的测试? 注意: 我做了一些与源代码有关的实验。该样本是在一个版本的软件(版本A)中编码所花费的时间。 实际上,我的样本量为6,这是在另一个版本的软件(版本B)中所编码的时间。 我想使用一样本t检验进行假设检验,以测试在代码版本A中花费的时间与在代码版本B中花费的时间是否不同(这是我的H1)。一次样本t检验的前提是要测试的数据必须正态分布。这就是为什么我需要测试正常性。


1
关于t检验死亡的报道是否被大大夸大了?
通过阅读CV历来经典,我遇到了一个想澄清的声明。这是该帖子,我的问题是关于结束语:“我必须注意,我刚刚讲授的所有知识都已过时;现在我们有了计算机,我们可以做得比t检验更好。正如弗兰克所说,您可能想在被教您进行t检验的任何地方使用Wilcoxon检验。” 不必担心是否合理地假设样本均值的分布是否足以进行t检验是正常的,这显然是一个巨大的优势。而且我发现计算机可以轻而易举地排列两个数据矢量之间的长长的差异列表...我记得很多年前是手动完成的,但是我离题了... 那么,t检验真的已经成为过去吗?置换测试呢?在通常需要编写几行代码的意义上,它们是否太特别?

4
Ziliak(2011)反对使用p值,并提到了一些替代方案。这些是什么?
在最近的一篇文章中讨论了依赖p值进行统计推断的缺点,称为“ Matrixx诉Siracusano和Student诉Fisher的审判统计意义”(DOI:10.1111 / j.1740-9713.2011.00511.x), Stephen T. Ziliak反对使用p值。在最后几段中,他说: 数据是我们已经知道并且肯定的一件事。我们实际上想知道的是完全不同的东西:给定我们拥有的数据,假设成立的可能性为真(或至少在实践中有用)。我们想知道两种药物不同的可能性,以及在给定证据的情况下相差多少。显着性检验(基于转置条件的谬误,即Fisher陷入的陷阱)不会,也无法告诉我们这种可能性。幂函数,预期损失函数以及许多其他的决策理论方法和贝叶斯方法都可以从Student和Jeffreys继承而来,这些方法现已广泛可用并且可以免费在线使用。 幂函数,期望损失函数和“其他决策理论和贝叶斯方法”是什么?这些方法是否被广泛使用?它们在R中可用吗?这些新建议方法如何实施?例如,我将如何使用这些方法在数据集中检验我的假设,否则我将使用常规的两样本t检验和p值?

1
经验贝叶斯如何有效?
因此,我刚读完一本很棒的书《经验贝叶斯简介》。我以为这本书很棒,但是根据数据建立先验感觉是错误的。我们接受过培训,要求您提出分析计划,然后收集数据,然后测试您先前在分析计划中确定的假设。在对已经收集的数据进行分析时,这将使您进入选择性后推断,在此之后您必须对所谓的“重要”更为严格,请参见此处。我认为机器学习有一个类似的东西,叫做“樱桃采摘”,意思是在建立测试和训练集之前选出预测变量(《统计学习入门》)。 鉴于我以前学到的知识,在我看来,经验贝叶斯基于薄弱的基础。人们是否仅在被动生成数据的环境中使用它?如果是这样,这可能是合理的,但是在进行严格的实验设计时使用它似乎并不正确,但是我知道Brad Efron确实使用了专门针对生物统计学的经验贝叶斯方法,而贝叶斯通常是一个非常重要的NHST领域。 我的问题是: 经验贝叶斯如何有效? 在什么情况下使用? 在什么情况下应该避免使用经验贝叶斯方法?为什么? 人们是否在生物统计学之外的其他领域使用它?如果是,他们在什么情况下使用它?

3
自从黎明以来,为什么不对所有实验进行多重假设校正?
我们知道,为了控制错误发现率,我们必须对基于单个数据集的实验应用类似于Benjamini Hochberg的校正来进行多个假设检验,否则所有给出阳性结果的实验​​都可能是错误的。 但是,为什么自开始以来我们不对所有实验都应用相同的原理,而不管数据来自何处? 毕竟,现在已知超过一半的被发表为“重要”的科学成果是虚假且不可复制的,没有理由不能如此轻易地做到100%。由于科学家只倾向于发表阳性结果,因此我们不知道阴性结果的数量,因此我们也不知道我们发表的内容是否只是假阳性-在零假设下纯正的随机机会产生的阳性结果。同时,没什么可说的是,多个假设检验校正的数学运算仅应适用于同一数据集的结果,而不适用于随时间推移获得的所有实验数据的结果。 似乎整个科学已经成为基于错误或虚假假设的一项大型捕鱼活动,那么我们如何才能对此进行控制? 如果我们曾经发布的所有结果都是独立的结果而没有对迄今为止进行的所有实验的多个假设检验进行任何校正,那么我们如何控制错误发现率呢? 是否可以在不进行此类纠正的情况下控制错误发现率?

4
Shapiro–Wilk是最好的正态性检验吗?为什么它会比Anderson-Darling等其他测试更好?
我在一些文献中已经读过,Shapiro-Wilk检验被认为是最好的正态性检验,因为对于给定的显着性水平,如果无效假设被否定,则拒绝原假设的概率高于其他假设。正常性测试。αα\alpha 您能否在可能的情况下使用数学参数向我解释,与其他一些正态性检验(例如安德森–达林检验)相比,它的工作原理如何?

3
健全性检查:p值可以走多低?
我正在使用ranksum检验来比较两个样本的中位数(),发现它们与显着不同。我应该对这么小的值感到怀疑还是应该将其归因于与非常大的样本相关的高统计能力?有任何可疑的低值之类的东西吗?n = 120000ñ=120000n=120000p = 1.12E-207pppppp

3
每日时间序列分析
我正在尝试进行时间序列分析,并且是该领域的新手。我每天都在统计2006-2009年的某个事件,因此我想为其拟合时间序列模型。这是我取得的进步: timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) 我得到的结果图是: 为了验证是否存在季节性和趋势数据,或者不是,我按照此提到的步骤后: ets(x) fit <- tbats(x) seasonal <- !is.null(fit$seasonal) seasonal 在Rob J Hyndman的博客中: library(fma) fit1 <- ets(x) fit2 <- ets(x,model="ANN") deviance <- 2*c(logLik(fit1) - logLik(fit2)) df <- attributes(logLik(fit1))$df - attributes(logLik(fit2))$df #P value 1-pchisq(deviance,df) 两种情况都表明没有季节性。 当我绘制该系列的ACF和PACF时,得到的是: 我的问题是: 这是处理每日时间序列数据的方式吗?该页面建议我应该同时查看每周和年度模式,但是这种方法对我来说并不明确。 一旦有了ACF和PACF图,我将不知道如何进行。 我可以简单地使用auto.arima函数吗? 适合<-arima(myts,order = c(p,d,q) *****更新了Auto.Arima结果****** 当我根据罗布海德门的评论的数据的频率改变为7 这里,auto.arima选择一个季节性ARIMA模型和输出: …

4
动力不足的研究是否会增加假阳性的可能性?
在这里和这里之前都曾问过这个问题,但我认为答案不能直接解决这个问题。 动力不足的研究是否会增加假阳性的可能性?一些新闻文章对此作出了断言。对于例如: 统计能力低是个坏消息。动力不足的研究更有可能错过真正的效果,并且作为一个整体,它们更有可能包含更高比例的误报-也就是说,即使这些效果不是真实的,它们也具有统计学意义。 据我了解,测试的力量可以通过以下方式提高: 增加样本量 效果更大 提高重要性水平 假设我们不想更改显着性水平,我相信上面的引用是指更改样本大小。但是,我看不出减少样本应该如何增加误报的数量。简而言之,降低研究的功效会增加假阴性的可能性,这会回答以下问题: P(未能拒绝 H0| H0 是错误的)P(拒绝拒绝 H0|H0 是假的)P(\text{failure to reject }H_{0}|H_{0}\text{ is false}) 相反,误报回答了以下问题: P(拒绝 H0| H0 是真的)P(拒绝 H0|H0 是真的)P(\text{reject }H_{0}|H_{0}\text{ is true}) 两者都是不同的问题,因为条件不同。权力与否定否定(相反)相关,但与否定肯定无关。我想念什么吗?

4
在R中确定两个样本比例二项式检验(以及一些奇怪的p值)
我正在尝试解决以下问题: 玩家A在25场比赛中赢得17场比赛,而玩家B在20场比赛中赢得8场比赛-两种比率之间是否有显着差异? 在R中想到的事情如下: > prop.test(c(17,8),c(25,20),correct=FALSE) 2-sample test for equality of proportions without continuity correction data: c(17, 8) out of c(25, 20) X-squared = 3.528, df = 1, p-value = 0.06034 alternative hypothesis: two.sided 95 percent confidence interval: -0.002016956 0.562016956 sample estimates: prop 1 prop 2 0.68 0.40 因此,该测试表明,在95%的置信水平下,差异并不显着。 因为我们知道那prop.test()仅是使用近似值,所以我想通过使用精确的二项式检验使事情更精确-并且我同时采用了两种方法: > …

1
先验能力分析本质上是没有用的吗?
上周,我参加了人格与社会心理学协会的一次会议,在该会议上,我看到Uri Simonsohn的演讲,前提是使用先验能力分析来确定样本量实际上是无用的,因为其结果对假设如此敏感。 当然,这种说法违背了我在方法论课上所学的知识,也违背了许多著名方法学家的建议(最著名的是Cohen,1992年),因此Uri提出了一些与他的主张有关的证据。我试图在下面重新创建一些证据。 为简单起见,让我们假设您有两组观察结果,并猜测效果大小(通过标准化均值差衡量)为。标准功率计算(使用下面的软件包完成)将告诉您,需要观察才能获得此设计的80%功率。128.5.5.5Rpwr128128128 require(pwr) size <- .5 # Note that the output from this function tells you the required observations per group # rather than the total observations required pwr.t.test(d = size, sig.level = .05, power = .80, type = "two.sample", alternative = "two.sided") 但是,通常,我们对效果的预期大小的猜测(至少是在我所研究的社会科学领域)至少是-粗略的猜测。如果我们对效果的大小有些怀疑,那会发生什么?快速功效计算可以告诉您,如果效果的大小是而不是,则需要次观察- 是为的效果具有足够功效的数量的倍。同样,如果效果的大小为,则只需要进行观察,即需要有足够的能力才能检测到的效果的70%.5 200 1.56 .5 …

7
Bonferroni调整有什么问题?
我阅读了以下论文:Perneger(1998)Bonferroni调整有什么问题。 作者总结说,Bonferroni调整充其量仅在生物医学研究中有有限的应用,并且在评估有关特定假设的证据时不应使用: 总结要点: 根据研究数据进行的检验数量的统计显着性调整(Bonferroni方法)会产生比其解决的问题更多的问题 Bonferroni方法与一般的零假设(所有零假设同时为真)有关,这对于研究人员来说很少有兴趣或使用。 主要缺点是对结果的解释取决于执行的其他测试的数量 II型错误的可能性也增加了,因此真正重要的差异被认为是不重要的 简单描述已执行过哪些重要检验以及为什么进行检验,通常是处理多重比较的最佳方法 我有以下数据集,但我想进行多次测试校正,但在这种情况下我无法决定最佳方法。 我想知道是否必须对所有包含均值列表的数据集进行这种校正,在这种情况下,最佳的校正方法是什么?

5
既然我已经拒绝了原假设,那么下一步是什么呢?
我一次又一次拒绝或未能拒绝原假设。在未能拒绝的情况下,您可以得出结论:没有足够的证据可以拒绝,您可以“继续前进”(例如,收集更多数据,结束实验等)。 但是,当您“拒绝”原假设时,为替代假设提供了一些证据,您就无法真正“证明”您的替代假设确实成立。 因此,一旦您拒绝了原假设,接下来的常见步骤是什么?人们采用什么工具/技术来“进一步分析问题”,以使更多的发现更有说服力?作为统计学家需要进一步分析的合乎逻辑的“下一步”是什么? 例如: H0:μ1个= μ0H0:μ1个=μ0H_0: \mu_1 = \mu_0 (说,我们知道预期的方向)H1个:μ1个> μ0H1个:μ1个>μ0H_1: \mu_1 > \mu_0 一旦我们在某种程度上拒绝了原假设,我们就有“证据”证明了另一种选择是正确的,但是我们不能得出这个结论。如果我真的想最终得出结论(请原谅,请放好双字游戏),我该怎么办? 在大学本科期间,我从来没有考虑过这个问题,但是现在,我正在做大量的假设检验,我不禁想知道接下来会发生什么:)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.