Questions tagged «hypothesis-testing»

假设检验评估数据是否与给定假设不一致,而不是随机波动的影响。

2
为什么独立性测试使用卡方分布?
所述拟合优度测试使用以下统计: 在测试中,授予该该条件得到满足,一个用途 - 分布来计算p值,鉴于条件之一将相同尺寸的代表性样品中观察这样的值。χ 2 0 = Ñ Σ我= 1(直径:我 - ë 我)2χ2χ2\chi^2 χ2ħ0χ20=∑i=1n(Oi−Ei)2Eiχ02=∑i=1n(Oi−Ei)2Ei \chi_0^2=\sum_{i=1}^n\frac{(O_i-E_i)^2}{E_i} χ2χ2\chi^2H0H0H_0 但是,为了使统计遵循(具有个自由度),必须为: 用于独立的标准普通(Wikipedia)。测试的条件如下(同样来自Wikipedia): χ 2 ñ - 1 ñ Σ我= 1(直径:我 - ë 我)2χ20χ02\chi_0^2χ2χ2\chi^2n−1n−1n-1 Zi∑i=1n(Oi−Ei)2Ei=∑i=1n−1Z2i∑i=1n(Oi−Ei)2Ei=∑i=1n−1Zi2 \sum_{i=1}^n\frac{(O_i-E_i)^2}{E_i}=\sum_{i=1}^{n-1}Z_i^2 ZiZiZ_i 人口样本代表 大样本量 预期细胞数足够大 每个类别之间的独立性 从条件(1,2)可以看出,我们满足了从样本到总体的推断条件。(3)似乎是一个必要的假设,因为分母中的离散计数不会导致每个的近连续分布,并且如果它不够大,则存在可以用Yates校正的误差校正 -这似乎是由于以下事实:离散分布基本上是“泛滥”的连续分布,因此每个分布的偏移都可以对此进行校正。ž 我EiEiE_iZiZiZ_i1/21/21/2 (4)的必要性似乎稍后会派上用场,但我不知道如何。 起初,我认为对于使统计信息与分布匹配是必要的。这使我得出一个令人质疑的假设,即,这确实是错误的。实际上,从等式两边的维数从到可以看出,事实并非如此。Zi=Oi−EiEi√Zi=Oi−EiEiZ_i=\frac{O_i-E_i}{\sqrt{E_i}}Oi−Ei∼N(0,Ei−−√)Oi−Ei∼N(0,Ei)O_i-E_i\sim \mathcal{N}(0, \sqrt{E_i})nnnn−1n−1n-1 由于whuber的解释,很明显不必等于每个项,因为对于功能独立的标准正态随机变量,(注意总的减少)。ZiZiZ_iOi−EiEi√Oi−EiEi\frac{O_i-E_i}{\sqrt{E_i}}χ20=∑n−1i=1Z2iχ02=∑i=1n−1Zi2\chi_0^2=\sum_{i=1}^{n-1}Z_i^2ZiZiZ_i 那么,我的问题是如何遵循分布?项中的每一个的什么样的组合会导致平方标准法线?显然,这需要使用CLT(这很有意义),但是如何?换句话说,每个等于(或近似等于)是多少?χ20χ02\chi_0^2χ2χ2\chi^2 Z 2 i Zi(Oi−Ei)2Ei(Oi−Ei)2Ei\frac{(O_i-E_i)^2}{E_i}Z2iZi2Z_i^2ZiZiZ_i

2
该 -test VS的 -试验比较2组患感冒的几率
我刚刚读了一篇颇受人尊敬的(受欢迎的)科学杂志(德国PM,02/2013,第36页),其中讲述了一个有趣的实验(不幸的是,没有资料来源)。它引起了我的注意,因为直觉上我怀疑结果的重要性,但是所提供的信息足以重现统计检验。 研究人员想知道,在寒冷的天气中变冷是否会增加患感冒的几率。因此,他们将180名学生随机分为两组。一组不得不将脚放进冷水中20分钟。另一个人穿鞋。我认为这是一种有趣的操作,但另一方面,我不是医生,也许医生认为很有趣。除了道德问题。 无论如何,经过5天的治疗,治疗组中的13名学生患了感冒,但只有5名学生保持着鞋凉。因此,该实验的优势比为2.87。 鉴于样本量很小,我开始怀疑这种差异是否可能很大。所以我进行了两次测试。 首先,使用正态逼近对比例相等进行简单测试。该测试的,。我的猜测是,这就是研究人员测试过的。这确实很重要。但是,由于正态近似,如果没有记错的话,此z检验仅在大样本中有效。此外,患病率还很小,我想知道这是否不会影响效果置信区间的覆盖率。p = 0.0468z=1.988z=1.988z=1.988p=0.0468p=0.0468p=0.0468 因此,我的第二次尝试是对卡塔尔独立性进行卡方检验,包括蒙特卡罗模拟和标准皮尔逊卡方。在这里,我发现p值都约为。p=.082p=.082p=.082 现在,所有这些都不会让您对结果感到放心。我想知道是否有更多选择来测试此数据,以及您对这两项测试的想法是什么(特别是第一个重要测试的假设)

4
假设检验用于两个以上样本之间的中位数差异
题 将三组人的测试成绩另存为R中的向量。 set.seed(1) group1 <- rnorm(100, mean = 75, sd = 10) group2 <- rnorm(100, mean = 85, sd = 10) group3 <- rnorm(100, mean = 95, sd = 10) 我想知道这些群体之间的中位数是否存在显着差异。我知道我可以使用Wilcoxon测试来测试第1组和第2组。 wilcox.test(group1, group2) 但是,这一次只比较两个组,我想同时比较所有三个组。我想进行统计检验,得出p值为0.05的显着性水平。有人可以帮忙吗? 编辑#1-情绪中位数测试 按照用户Hibernating的建议答案,我尝试了Mood的中位数测试。 median.test <- function(x, y){ z <- c(x, y) g <- rep(1:2, c(length(x), length(y))) m …


1
在隐马尔可夫模型中选择“最佳”模型的标准
我有一个时间序列数据集,试图将其拟合隐马尔可夫模型(HMM),以便估计数据中的潜在状​​态数。我的伪代码是这样的: for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } 现在,在通常的回归模型中,BIC倾向于支持最简约的模型,但对于HMM,我不确定这是在做什么。谁真的知道BIC标准倾向于哪种HMM?我也能够获得AIC和似然值。由于我试图推断出真实的州总数,因此其中一个标准是否比另一个标准“更好”?

1
测试某些对比:这是否确实是一个难题?
我将其发布到mathoverflow上,没有人回答: Scheffé的用于识别统计上显着差异的方法是众所周知的。甲对比度的装置中,我= 1 ,... ,- [R的ř种群是线性组合Σ ř 我= 1 c ^ 我μ 我其中Σ ř 我= 1 c ^ 我 = 0μ一世μi\mu_ii = 1 ,… ,ri=1,…,ri=1,\ldots,r[Rrr∑[R我= 1C一世μ一世∑i=1rciμi\sum_{i=1}^r c_i \mu_i∑[R我= 1C一世= 0∑i=1rci=0\sum_{i=1}^r c_i=0,并且对比度的标量倍数本质上是相同的对比度,因此可以说这组对比度是一个投影空间。Scheffé的方法测试了一个零假设,该假设表示这r个总体之间的所有对比均为0,并且在给定显着性水平α的情况下,假设零假设为真,则以概率α拒绝该零假设。而且,如果否定原假设被拒绝,Scheffé指出,他的测试告诉我们哪些对比与0明显不同(我不确定我链接到的Wikipedia文章指出了这一点)。[Rrr000αα\alphaαα\alpha000 我想知道在不同情况下是否可以做类似的事情。考虑一个简单的线性回归模型,其中ε 我〜我。我。d 。ÿ一世= α + βX一世+ ε一世Yi=α+βxi+εiY_i = \alpha + \beta x_i + \varepsilon_i,我= 1 ,... ,Ñ。ε一世〜我。我。d 。ñ(0 ,σ2)εi∼i.i.d.⁡N(0,σ2)\varepsilon_i\sim\operatorname{i.i.d.}N(0,\sigma^2)i=1,…,ni=1,…,ni=1,\ldots,n …

2
可以仅根据相关系数和样本数量来计算Pearson相关检验的p值吗?
背景:我读过一篇文章,作者从878样本中报告了Pearson相关系数0.754。相关检验的p值显着为“两颗星”(即p <0.01)。但是,我认为在如此大的样本量下,相应的p值应小于0.001(即三颗星)。 可以仅根据皮尔逊相关系数和样本量来计算该检验的p值吗? 如果是,该如何在R中完成?

2
统计检验值远非总体平均值:Z检验还是T检验?
值与值列表相比有多重要?在大多数情况下,统计测试涉及将样本集与总体进行比较。在我的情况下,样本是由一个值构成的,我们将其与总体进行比较。 我是统计假设检验中的最重要人物,可能面临最基本的问题。这不仅是一项测试,而且包括数百项测试。我有一个参数空间,并且必须对每个点进行显着性检验。将为每个参数组合生成值和背景列表(填充)。然后按p值对它进行排序,并找到有趣的参数组合。实际上,找到此p值高(无意义)的参数组合也很重要。 因此,让我们进行一个测试:我有一个从选定的集合生成的计算值和一个通过选择随机训练集计算的背景值。计算值是0.35,背景集(可能是?)正态分布,平均值为0.25,且std非常窄(e-7)。我实际上对分布情况一无所知,因为样本是通过其他方式计算得出的,它们不是某种分布中的随机数样本,因此背景是正确的词。 零假设是“样本检验的平均值等于我的计算值0.35”。我什么时候应该将其视为Z检验或T检验?我希望该值显着高于总体平均值,因此这是单尾检验。 对于样本应考虑的内容,我有点困惑:我要么拥有一个样本(观测值),而且将背景列表作为总体,要么我的样本是背景列表,并且我将其与整体(未抽样)进行比较根据原假设的总体应该具有相同的均值。一旦决定,我猜测试会朝不同的方向发展。 如果是T检验,如何计算其p值?我想自己计算而不是使用R / Python / Excel函数(我已经知道该怎么做),因此我必须首先建立正确的公式。 T=Z/s,T=Z/s,T=Z/s,Z=X¯σn√Z=X¯σnZ=\frac{\bar{X}}{\frac{\sigma}{\sqrt{n}}}s=σ^/σs=σ^/σs=\hat{\sigma}/\sigma 如何计算p值?(即不使用R / Python / Excel函数或p值表查找,而是根据公式实际计算它,因为我想知道自己在做什么) 如何根据样本量确定显着性阈值?(一个公式会很好)

2
调整p值以进行自适应顺序分析(用于卡方检验)?
我想知道哪些统计文献与以下问题有关,甚至可能有关于如何解决该问题的想法。 想象以下问题: 对于某些疾病,我们有4种可能的治疗方法。为了检查哪种治疗更好,我们进行了一次特殊的试验。在试验中,我们从没有受试者开始,然后一个接一个地将更多受试者输入试验。每个患者随机分配到4种可能的治疗方法之一。治疗的最终结果是“健康”或“仍然生病”,我们可以立即知道该结果。这意味着,在任何给定的点上,我们都可以创建一个2 x 4的列联表,说明我们有多少受试者属于哪种治疗/最终结果。 在任何时候,我们都可以检查列联表(例如,使用卡方检验),以查看这4种可能的治疗方法之间在统计学上是否存在不同的治疗方法。如果其中一个比较好,那么其余所有-我们将停止试验并选择它作为“优胜者”。如果某个试验被证明比其他三个试验都更糟,我们将把他从试验中删除,并停止提供给将来的患者。 但是,这里的问题是我如何针对可以在任何给定点执行测试,测试之间存在相关性以及过程的自适应性质操纵过程的事实来调整p值。例如,如果发现某些治疗方法“不好”)?

1
非嵌套模型的测试等效性
假设是和虚拟d的线性函数。我的假设是d本身就像其他变量Z的向量的享乐主义索引。我有一个这种支持MANOVA的ž(即Z_1,Z_2,...,z_n)上d。有什么方法可以测试这两个模型的等效性:yyyxxxddddddZZZMANOVAMANOVAMANOVAZZZz1z1z_1z2z2z_2znznz_nddd 模型1:y=b0+b1⋅x+b2⋅d+e1y=b0+b1⋅x+b2⋅d+e1y = b_0 + b_1 \cdot x + b_2\cdot d + e_1 模型2:y=g0+Z⋅G+e2y=g0+Z⋅G+e2y = g_0 + Z\cdot G + e_2 其中GGG是参数的列向量。


3
带重量的费舍尔精确检验?
有谁知道费舍尔精确检验的一种变化,它考虑了权重?例如采样权重。 因此,代替通常的2x2交叉表,每个数据点都有一个权重该点的“质量”或“大小”值。 示例数据: A B weight N N 1 N N 3 Y N 1 Y N 2 N Y 6 N Y 7 Y Y 1 Y Y 2 Y Y 3 Y Y 4 然后,费舍尔精确测试使用此2x2交叉表: A\B N Y All N 2 2 4 Y 2 4 6 All …

4
ANOVA比较多个组的平均值与ANOVA比较嵌套模型之间有什么关系?
到目前为止,我已经看到ANOVA以两种方式使用: 首先,在我的介绍性统计文本中,引入了ANOVA作为比较三个或更多组均值的一种方法,是对成对比较的改进,目的是确定一种均值是否具有统计学上的显着差异。 第二,在我的统计学习课文中,我已经看到ANOVA用于比较两个(或多个)嵌套模型,以确定使用模型2预测变量子集的模型1是否同样适合数据,或者是否完整模型2是上乘的。 现在,我认为这两者在某种程度上实际上是非常相似的,因为它们都在使用ANOVA测试,但是从表面上看,它们对我来说似乎完全不同。对于第一个方法,第一个用法比较三个或更多组,而第二个方法只能用于比较两个模型。有人请介意阐明这两种用途之间的联系吗?

1
漂移序列与趋势序列之间的差异
可以将具有漂移的序列建模为 ,其中是漂移(常数),并且。 yt=c+ϕyt−1+εtyt=c+ϕyt−1+εty_t = c + \phi y_{t-1} + \varepsilon_tcccϕ=1ϕ=1\phi=1 可以将具有趋势的序列建模为,其中是漂移(常数),是确定的时间趋势,。yt=c+δt+ϕyt−1+εtyt=c+δt+ϕyt−1+εty_t = c + \delta t + \phi y_{t-1} + \varepsilon_tcccδtδt\delta tϕ=1ϕ=1\phi=1 这两个系列都是,我认为两者都表现出越来越高的行为。I(1)I(1)I(1) 如果我有一个表现出越来越高的表现的新系列,我怎么知道这个系列是具有漂移或趋势的系列? 我可以做两个ADF测试: ADF测试1:零假设是级数为具有漂移的I(1)I(1)I(1) ADF测试2:零假设是具有趋势的序列I(1)I(1)I(1) 但是,如果两个测试的原假设都不被拒绝怎么办?

1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.