Questions tagged «hypothesis-testing»

假设检验评估数据是否与给定假设不一致,而不是随机波动的影响。

2
假设检验及其对时间序列的意义
查找两个总体时,通常的显着性检验是t检验,如果可能的话,配对t检验。这假设分布是正态的。 是否存在类似的简化假设,可以对时间序列进行显着性检验?具体来说,我们有两只老鼠,它们的数量相对较小,接受不同的治疗,并且我们每周测量一次体重。两张图均显示平滑增加的功能,其中一张图绝对高于另一张图。在这种情况下,我们如何量化“确定性”? 零假设应该是随着时间的流逝,两个总体的权重“以相同的方式表现”。如何用一个仅包含少量参数的相当普遍(就像正态分布一样普遍)的简单模型来表述呢?一旦做到这一点,一个人怎么能测量重要性或类似于p值的东西?如何配对小鼠,使其具有尽可能多的特征,并且每对具有两个种群中的一个代表? 我欢迎您找到有关时间序列的一些相关的,写得很好且易于理解的书或文章。我从无知开始。谢谢你的帮助。 大卫·爱泼斯坦

1
为什么t检验和ANOVA为两组比较给出不同的p值?
在有关ANOVA的Wikipedia文章中,它说 ANOVA以其最简单的形式提供了几组均值是否相等的统计检验,因此将t检验推广到了两组以上。 我的理解是,在进行两组比较时,方差分析与t检验相同。 但是,在下面的简单示例中(R),ANOVA和t检验给出了相似但略有不同的p值。谁能解释为什么? x1=rnorm(100,mean=0,sd=1) x2=rnorm(100,mean=0.5,sd=1) y1=rnorm(100,mean=0,sd=10) y2=rnorm(100,mean=0.5,sd=10) t.test(x1,x2)$p.value # 0.0002695961 t.test(y1,y2)$p.value # 0.8190363 df1=as.data.frame(rbind(cbind(x=x1,type=1), cbind(x2,type=2))) df2=as.data.frame(rbind(cbind(x=y1,type=1), cbind(y2,type=2))) anova(lm(x~type,df1))$`Pr(>F)`[1] # 0.0002695578 anova(lm(x~type,df2))$`Pr(>F)`[1] # 0.8190279

2
具有不对称零分布的两尾检验中的P值
我的情况如下:我想通过蒙特卡洛研究比较两个不同测试的值,以评估参数的统计显着性(null为“无影响-参数为零”,而隐含的替代方案为“参数不为零”)。检验A是标准的“均值均等的独立两次样本t检验”,在零值下方差相等。 ppp 测试B我已经建立了自己。在此,使用的零分布是不对称的一般离散分布。但是我在Rohatgi&Saleh(2001,2nd ed,p.462)中发现以下评论 “如果分布不对称,则在两面情况下无法很好地定义值,尽管许多作者建议将一面值加倍ppppppp。” 作者没有对此进行进一步讨论,也没有评论将单侧值加倍的“许多作者的建议” 。(这产生了一个问题:“将哪一侧的值加倍?为什么是这一侧而不是另一侧?)ppppppp 在整个问题上,我找不到其他任何评论,意见或结果。我了解到,对于非对称分布,尽管我们可以针对参数值考虑零假设周围的区间对称性,但我们不会再遇到第二种常见的对称性,即概率质量分配。但是我不明白为什么这会使 值“定义不正确”。就个人而言,通过使用围绕零假设的对称间隔作为估计量的值,我看不到任何定义ppp说“零分布将产生等于或超出此间隔的边界的值的概率为XX”时出现问题。至少在我看来,一侧的概率质量将与另一侧的概率质量不同的事实似乎并不会引起麻烦。但是,比Rohatgi和Saleh知道我不了解的东西更有可能。 所以这是我的问题:在零分布不对称的情况下进行双向测试时,在什么意义上值“(或可以)定义得不好”?ppp 一个可能重要的说明:我本着渔业的精神来处理这个问题,我并不是想在Neyman-Pearson的意义上获得严格的决策规则。我让测试的用户将值信息与其他任何信息一起使用来进行推断。ppp

3
关于费舍尔的确切测试:如果这位女士不知道第一个牛奶杯的数量,那么哪个测试合适?
在RA Fisher 著名的女士品尝茶实验中,该女士被告知有多少杯牛奶优先/茶优先的杯子(每8杯中有4杯)。这符合费舍尔精确检验的固定边际总假设。 我当时想和我的朋友一起做这个测试,但是这种想法震惊了我。如果女士能真正分辨出牛奶优先和茶优先杯子之间的区别,那么她应该能够算出牛奶优先/茶优先杯子的边际总量以及哪个是哪个。 因此,问题就来了:如果RA Fisher不告知女士牛奶第一杯和茶第一杯的总数,可以使用哪种测试?

6
如何在不到10分钟的时间内解释针对青少年的假设检验?
一年多来,我一直在提供一个小时的“统计学趣味”课程。每次我有一群不同的孩子过来,我给他们上课。 本课程的主题是,我们进行了一项实验,为10个孩子(喜欢喝可口可乐)提供了两个(未标记)杯子,一个杯子装有可口可乐,一个杯子有百事可乐。要求孩子们根据口味和气味检测出哪杯可乐饮料。 然后,我需要向他们解释如何确定孩子是否在猜测,或者他们(或至少有足够的孩子)是否真的有能力尝尝差异。10个成功中有10个足够好吗?十分之七呢? 即使给这堂课上了数十次(有不同的变化),我仍然不知道我如何以大多数班级都能理解的方式来理解这个概念。 如果您对如何以简单(!)和直观的方式来解释假设检验,无效假设,替代假设,拒绝区域等的概念有任何想法,我想知道如何。

1
使用H0下的引导程序来测试两种方法之间的差异:在组内还是在合并样本中进行替换
假设我有一个包含两个独立组的数据: g1.lengths <- c (112.64, 97.10, 84.18, 106.96, 98.42, 101.66) g2.lengths <- c (84.44, 82.10, 83.26, 81.02, 81.86, 86.80, 85.84, 97.08, 79.64, 83.32, 91.04, 85.92, 73.52, 85.58, 97.70, 89.72, 88.92, 103.72, 105.02, 99.48, 89.50, 81.74) group = rep (c ("g1", "g2"), c (length (g1.lengths), length (g2.lengths))) lengths = data.frame( lengths …


1
Kruskal-Wallis之后的事后测试:Dunn的测试或Bonferroni更正了Mann-Whitney的测试?
我有一些非高斯分布变量,我需要检查5个不同组中该变量的值之间是否存在显着差异。 我已经对Kruskal-Wallis进行了单向方差分析(其显着性上升),然后我必须检查哪些组存在显着差异。由于各组是排序的(第一个组中的变量值应低于第二组中的变量值,第二组中的变量值应低于第三组中的变量,依此类推on)我只执行了4个测试: Group 1 vs Group 2 Group 2 vs Group 3 Group 3 vs Group 4 Group 4 vs Group 5 我用两种不同的方法进行了分析。我从使用Dunn的多重比较测试开始,但是没有发现任何重大问题。另一方面,如果我使用Mann-Whitney检验并使用Bonferroni校正了检验的数量(4),那么有3项检验很有意义。 这是什么意思?我应该相信哪些结果?

4
在线性回归中更改零假设
我有一些高度相关的数据。如果我运行线性回归,则会得到一条斜率接近1(= 0.93)的回归线。我想做的是测试此斜率是否与1.0明显不同。我的期望不是。换句话说,我想将线性回归的零假设从零的斜率更改为一的斜率。这是明智的做法吗?我也非常感谢您可以在回答中包含一些R代码,以便我可以实现此方法(或您建议的更好的方法!)。谢谢。

2
测试系数之间的显着差异的正确方法是什么?
我希望有人能帮我解决一些困惑。假设我要测试2组回归系数是否显着不同,并进行以下设置: yi=α+βxi+ϵiyi=α+βxi+ϵiy_i = \alpha + \beta x_i + \epsilon_i,具有5个独立变量。 2组,大小大致相等,(尽管可能有所不同)n1,n2n1,n2n_1, n_2 数以千计的相似回归将同时完成,因此必须进行某种形式的多重假设校正。 向我建议的一种方法是使用Z检验: Z=b1−b2(√SEb21+SEb22)Z=b1−b2(SEb12+SEb22)Z = \frac{b_1 - b_2}{\sqrt(SEb_1^2 + SEb_2^2)} 我在该板上看到的另一个建议是引入一个虚拟变量进行分组并将模型重写为: yi=α+βxi+δ(xigi)+ϵiyi=α+βxi+δ(xigi)+ϵiy_i = \alpha + \beta x_i + \delta(x_ig_i) + \epsilon_i,其中ggg是分组变量,编码为0、1。 我的问题是,这两种方法有何不同(例如做出不同的假设,灵活性)?一个比另一个合适吗?我怀疑这是非常基本的,但是任何澄清将不胜感激。

2
为什么卡方检验使用期望的计数作为方差?
在测试中,将期望计数的平方根用作每个正态分布的标准偏差(即期望计数作为方差)的基础是什么?我唯一可以找到的讨论这件事的唯一方法就是http://www.physics.csbsju.edu/stats/chi-square.html,它只提到了泊松分布。χ2χ2\chi^2 作为我的困惑的简单说明,如果我们测试两个过程是否存在显着差异,一个过程会产生500 As和500 Bs的极小方差,另一个过程会产生550 As和450 Bs的极小方差(很少产生551 As和449 Bs)?此处的差异不是仅是预期值吗? (我不是统计学家,所以要真正寻找非专家可以理解的答案。)

3
根据预期分布测试随机生成的数据
我写了一个程序,可以生成随机数据。如果程序正常运行,则该数据应遵循特定的已知概率分布。我想运行该程序,对结果进行一些计算,并得出一个p值。 在其他人说之前:我了解假设检验无法检测程序何时正常运行。它只能以特定方式检测何时无法正确运行。(即使如此,测试还是应该在X%的时间内失败,具体取决于您选择的显着性水平...) 因此,我试图了解哪种工具合适。尤其是: 我可以根据需要生成任意多的随机数据。我要做的就是让程序运行足够长的时间。因此,我不限于任何特定的样本量。 我对产生p值的技术感兴趣。因此,盯着图说“是的,看起来有点线性”并不是一个有趣的选择。除非有某种方法可以将硬数字放在图形的“奇特性”上。;-) 我到目前为止所知道的: 我已经看到提到了三种主要的测试,听起来可能适用:[Pearson]卡方测试,Kolmogorov-Smirnov测试和Anderson-Darling测试。 卡方检验似乎适用于离散分布,而其他两个检验更适合于连续分布。(?) 各种资料表明,AD测试比KS测试“更好”,但是没有进一步详细介绍。 最终,所有这些测试都可能检测出偏离指定零分布的“不同方式”。但是我还真的不知道它们之间的区别是什么...总之,我正在寻找某种一般性的描述,以说明每种类型的测试最适用的位置以及可以最好地检测到哪些类型的问题。


2
统计检验可以返回p值为零吗?
我的意思不是接近零的值(某些统计软件将其舍入为零),而是真正的零值。如果是这样,这是否意味着假设零假设为真的情况下获得所获得数据的概率也为零?什么是统计测试(一些示例)可以返回此类结果? 编辑第二句话,删除短语“原假设的概率”。

3
“测试统计”是值还是随机变量?
我是一名正在上我的第一门统计学课程的学生。我对“测试统计”一词感到困惑。 在下面的内容中(我在一些教科书中看到了这一点),似乎是根据特定样本计算得出的特定值。 吨= ¯ X - μ 0ŤŤtt = x¯¯¯- μ0s / n--√Ť=X¯-μ0s/ñ t=\frac{\overline{x} - \mu_0}{s / \sqrt{n}} 但是,在下面的内容(我在其他一些教科书中也看到过)中,似乎是一个随机变量。 Ť = ¯ X - μ 0ŤŤTŤ= X¯¯¯¯- μ0小号/ n--√Ť=X¯-μ0小号/ñ T=\frac{\overline{X} - \mu_0}{S / \sqrt{n}} 那么,“测试统计”一词是指特定值还是随机变量,或者两者都表示?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.