Questions tagged «hypothesis-testing»

假设检验评估数据是否与给定假设不一致,而不是随机波动的影响。

2
为什么在Holm-Bonferroni上使用Bonferroni?
我明白了为什么您可能不对Bonferroni校正使用更强大的方法(例如Hochberg方法),因为它们可能具有额外的假设,例如在这种情况下的假设独立性,但是我不明白为什么您会这样做永远不要对Holm的顺序拒绝修改使用Bonferroni校正,因为后者比Bonferroni更强大并且没有更多假设。我错过了什么吗?

2
如何比较其数据符合指数分布的两个样本的平均值
我有两个数据样本,一个基线样本和一个治疗样本。 假设是治疗样本的平均值高于基线样本。 两个样品的形状都是指数的。由于数据相当大,因此在运行测试时,我只具有每个样本的均值和元素数。 我如何检验该假设?我猜想这很容易,我遇到了使用F-Test的一些参考,但是我不确定参数如何映射。

4
当前辩论对统计意义的影响
在过去的几年中,各种各样的学者提出了一个有害的科学假设检验问题,称为“研究者自由度”,这意味着科学家在分析过程中有很多选择偏向于p值<5%的发现。例如,这些模棱两可的选择包括要包含的情况,被归类为异常的情况,运行大量的模型规范,直到出现某种情况,不发布无效结果,等等。(引发心理学争论的论文在这里,看到一个受欢迎的石板条和后续辩论安德鲁·盖尔曼在这里,和时代杂志还谈到了这个话题在这里。) 首先,一个澄清问题: 《时代》杂志写道, “ 0.8的幂表示经过检验的十个真实假设中,只有两个被排除在外,因为其影响未在数据中得到体现。” 我不确定这是否适合我在教科书中找到的幂函数的定义,这是拒绝空值作为参数的函数的可能性。使用不同的我们具有不同的功能,因此我不太理解上面的引用。θθθ\thetaθθ\theta 其次,一些研究意义: 在我的政治科学/经济学领域,学者只是用尽了所有可用的国家/地区年度数据。因此,我们不应该在这里摆弄样品吗? 是否可以仅通过学科中的其他人将重新测试您的论文并由于没有可靠结果而立即将您击倒这一事实来解决运行多个测试但仅报告一个模型的问题?预见到这一点,我这一领域的学者更有可能包括一robustness check节,他们表明多个模型规范不会改变结果。这够了吗? 安德鲁·盖尔曼(Andrew Gelman)和其他人指出,无论数据如何,总是有可能找到并发布一些并非真正存在的“模式”。但是,考虑到任何经验的“模式”都必须得到理论的支持,并且学科内的竞争理论只会进行辩论/竞赛,以找出哪个阵营能够找到更多的“模式”,因此这不必担心。在各个地方。如果某个模式确实是虚假的,那么当其他样本/设置中没有类似的模式时,后面的理论将很快被推翻。这不是科学的进步吗? 假设当前期刊对无效结果的趋势实际上将会蓬勃发展,是否有办法让我们将所有无效结果和肯定结果汇总在一起,并推断它们都试图检验的理论?

1
我应该使用Welch(1947)的近似自由度还是Satterthwaite(1946)的近似度?
对于用于Welch t检验的近似自由度的正确公式,我感到困惑。Satterthwaite(1946)的公式是最常引用的公式,但是Welch在1947年提出了另一种公式。我不确定哪个更可取(或被大多数统计软件使用)。 Satterthwaite的公式: (s2X/ nX+ 秒2ÿ/ nÿ)2(s2X/ nX)2/( nX− 1 )+ (秒2ÿ/ nÿ)2/( nÿ− 1 )(sx2/nx+sy2/ny)2(sx2/nx)2/(nx−1)+(sy2/ny)2/(ny−1)\frac{\left(s_x^2/n_x +s_y^2/n_y\right)^2}{(s_x^2/n_x )^2/(n_x-1)+(s_y^2/n_y )^2/(n_y-1)} 韦尔奇公式: − 2 + (秒2X/ nX+ 秒2ÿ/ nÿ)2(s2X/ nX)2/( nX+ 1 )+ (小号2ÿ/ nÿ)2/( nÿ+ 1 )−2+(sx2/nx+sy2/ny)2(sx2/nx)2/(nx+1)+(sy2/ny)2/(ny+1)-2+ \frac{\left(s_x^2/n_x +s_y^2/n_y\right)^2}{(s_x^2/n_x )^2/(n_x+1)+(s_y^2/n_y )^2/(n_y+1)} 参考文献: 宾夕法尼亚州萨特斯韦特(1946)。“方差成分估计的近似分布”。生物识别公告,第2卷,第6页,第110-114页。 韦尔奇,BL(1947)。“当涉及几个不同的总体方差时,“学生”问题的推广”。Biometrika,34,1 / 2,第28-35页。


1
如何在ARIMA模型的观察值48中加入创新的离群值?
我正在处理数据集。使用一些模型识别技术后,我得出了一个ARIMA(0,2,1)模型。 我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值(IO)。 如何将这个离群值合并到模型中,以便将其用于预测?我不想使用ARIMAX模型,因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗? 以下是我的价值观: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
是否有效果大小的一般定义?
该effect-size标签没有维基。关于效果大小的维基百科页面没有提供精确的一般定义。而且我还没有看到效果大小的一般定义。然而读了一些讨论,比如当这一个我的印象是人们心目中的影响大小的一般概念下,在统计检验的情况下。我已经看到的标准化平均被称为影响大小用于正常模型Ñ(μ ,σ 2),以及标准平均差θ = (θ=μ/σθ=μ/σ\theta=\mu/\sigmaN(μ,σ2)N(μ,σ2){\cal N}(\mu,\sigma^2)为“两个高斯手段”的模式。但是一般的定义呢?上面两个示例共有的有趣特性是,据我所知, 功率仅取决于 θ的参数,并且是 |的递增函数。θ | 当我们考虑用于通常测试 ħ 0:{ μ = 0 }在所述第一壳体和 ħ 0:{ μ 1 = μ 2 }在第二种情况下。 θ=(μ1−μ2)/σθ=(μ1−μ2)/σ\theta=(\mu_1-\mu_2)/\sigmaθθ\theta|θ||θ||\theta|H0:{μ=0}H0:{μ=0}H_0:\{\mu=0\}H0:{μ1=μ2}H0:{μ1=μ2}H_0:\{\mu_1=\mu_2\} 这个属性是效应大小概念背后的基本思想吗?那将意味着效果大小被定义为单调一对一转换?还是有一个更精确的一般定义?

1
统计测试建议
我需要在以下方面找到适当的统计检验(似然比检验,t检验等):让是一个随机向量的IID样品(X ; Ý ),并假定(Ý X)〜Ñ [ (μ 1 μ 2),(1 0.5 0.5 1) ]。的假设是: H ^ 0 = μ 1 + μ{Xi;Y一世}ñ我= 1{X一世;ÿ一世}一世=1个ñ\{X_i;Y_i\}^n_{i=1}(X; ÿ)(X;ÿ)(X;Y)(是X)(ÿX)\bigl( \begin{smallmatrix} Y\\ X \end{smallmatrix} \bigr)ññN [ (μ1个μ2),(1.5.51个) ][(μ1个μ2),(1个.5.51个)]\left[\bigl( \begin{smallmatrix} \mu_1\\ \mu_2 \end{smallmatrix} \bigr), \bigl( \begin{smallmatrix} 1 & .5\\ .5 & 1 \end{smallmatrix} \bigr) \right] ; ħ …

3
当零假设为
我想对来自二项式数据的单个样本进行功效分析,H0:p=0H0:p=0H_0: p = 0,而H1:p=0.001H1:p=0.001H_1: p = 0.001,其中ppp是总体中成功的比例。如果0&lt;p&lt;10&lt;p&lt;10 < p <1,我可以使用任一的正态近似二项式,或χ2χ2\chi^2 -test,但与p=0p=0p =0,这些都失败。我很想知道是否可以进行这种分析。我非常感谢您的任何建议,评论或参考。非常感谢!

2
R中的Wilcoxon-Mann-Whitney临界值
我注意到,当我尝试使用R查找Mann-Whitney U的临界值时,该值始终为1+临界值。例如,对于α = .05 ,n = 10 ,m = 5α=.05,n=10,m=5\alpha=.05, n = 10, m = 5,(两尾)临界值是8;而对于α = .05 ,n = 12 ,m = 8α=.05,n=12,m=8\alpha=.05, n=12, m=8,(两尾)临界值值是22(请检查表格),但是: &gt; qwilcox(.05/2,10,5) [1] 9 &gt; qwilcox(.05/2,12,8) [1] 23 我当然不在考虑什么,但是...谁能解释我为什么?

2
检测“相似”源代码的簇
假设我有400名学生(在一所大大学中)必须执行计算机科学项目,并且他们必须独自工作(没有一组学生)。一个项目的例子可以是“在fortran中实现快速傅立叶变换算法”(我知道,这听起来并不性感,但是这使我的问题更简单了)。我是纠正者,我想发送例程以检查是否有提议实施的学生群体“过于相似,无法真正独立编写”。 这是对集群的无监督搜索。我认为问题更多是关于使用哪些属性,而不是使用哪种聚类算法。我要做的第一件事是一个字母一个字母的直方图。理想情况下,由于作弊者比这更聪明,因此我最终将尝试选择较好的字母随机排列,以查看是否存在字母直方图(带有排列)的良好匹配。那些没有探究代码结构,只探究字母的边际分布的人……您有什么解决方案?是否有专门用于解决此问题的软件或软件包?(实际上,在过去,计算机科学老师声称他们拥有这种工具,但现在我怀疑他们的工具非常简单) 我猜软件开发的律师也有这类问题(不是有1000名学生,而是有2个大代码...这使事情变得更难了)?

1
观察到的等位基因频率是否明显低于预期?
问题:如何构建测试以确定中部至南部山区观察到的“山”-等位基因频率(图1)是否明显低于生态选择模型所预测的(图2)(请参见下文)? 问题:我最初的想法是使模型残差相对于纬度:经度和海拔高度回归(这仅导致纬度和经度之间的相互作用显着)。问题在于,残基(图3)可能反映了模型无法解释的变异和/或它们是生物学上正在发生的事情,例如,等位基因没有时间向南扩散至其潜能,或者基因流存在一定障碍。如果将观察到的(图1)与预期的(图2)山等位基因频率进行比较,则存在明显的差异,尤其是在瑞典和挪威的中南部山脉。我接受该模型可能无法解释所有变化,但是我可以提出一个合理的检验来探索山等位基因尚未在中部至南部山区发挥其潜力的想法吗? 背景:我有一个双等位基因AFLP标记,其频率分布似乎与斯堪的纳维亚半岛的山地(和纬度:经度)与低地栖息地有关(图1)。“山”等位基因几乎固定在多山的北部。南部缺少山脉的“低地”等位基因几乎不存在或固定。当一个人从山上向南移动时,“山”等位基因的发生频率较低。从北到南的“山脉”等位基因频率的差异可能仅是由于系统地理学或历史过程造成的,因为该地区是从北部和南部开始殖民的。例如,如果高山等位基因起源于北部人口,那么也许它还没有时间完全扩展到南部人口, 我的工作假设是“山”等位基因频率是生态选择的结果(无效假设是中性选择)。 对于我的生态选择模型,我使用了以二项式等位基因频率作为响应变量的广义加性模型(GAM)(在Fennoscandinavia上采样了129个站点,每个站点通常采样了10至20个个体),并在以下几个气候和生长季节变量中:预测变量。模型结果如下(TMAX04-06 = 4月至6月的最高温度,Phen_NPPMN =平均生长期植被生产力,PET_HE_YR =年潜在蒸散量,Dist_Coast =到海岸的距离): Family: binomial Link function: logit Formula: Binomial_WW1 ~ s(TMAX_04) + s(TMAX_05) + s(TMAX_06) + s(Phen_NPPMN) + s(PET_HE_YR) + s(Dist_Coast) Parametric coefficients: Estimate Std. Error z value Pr(&gt;|z|) (Intercept) -0.74372 0.04736 -15.7 &lt;2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ …

1
逆协方差矩阵的假设检验
假设我观察到iid ,并希望测试 vech for a整合矩阵和向量。在这个问题上有已知的工作吗?xi∼N(μ,Σ)xi∼N(μ,Σ)x_i \sim \mathcal{N}\left(\mu,\Sigma\right)H0:A H0:A H_0: A\ (Σ−1)=a(Σ−1)=a\left(\Sigma^{-1}\right) = aAAAaaa (对我而言)显而易见的尝试是通过似然比测试,但是似乎要在受到约束的情况下最大化似然率将需要SDP求解器,并且可能非常麻烦。H0H0H_0

1
测试比例和二进制分类器
我有一台生产零件的原型机。 在第一次测试中,该机器生产了零件,并且一个二进制分类器告诉我零件有缺陷(,通常且),而零件是好的。d 1 d 1 &lt; Ñ 1 d 1 / Ñ 1 &lt; 0.01 Ñ 1 ≈ 10 4 Ñ 1 - d 1ñ1个N1N_1d1个d1d_1d1个&lt; N1个d1&lt;N1d_1 < N_1d1个/N1个&lt; 0.01d1/N1&lt;0.01d_1/N_1<0.01ñ1个≈ 104N1≈104N_1\approx10^4ñ1个-d1个N1−d1N_1-d_1 然后,技术人员对机器进行一些更改,以减少缺陷零件的数量。 在第二次和随后的测试中,修改后的机器生成零件,并且相同的二进制分类器(未触及)告诉我零件有缺陷,无论如何与非常相似。d 2 d 2 / N 2 d 1 / N 1ñ2N2N_2d2d2d_2d2/ N2d2/N2d_2/N_2d1个/ N1个d1/N1d_1/N_1 技术人员想知道他的更改是否有效。 假设分类器是完美的(灵敏度为100%,特异性为100%),则可以对比例进行测试(使用R,我只输入prop.test(c(d1,d2),c(N1,N2)))。 但是分类器不是完美的,那么我如何考虑分类器的敏感性和特异性(都是未知的),以便正确地回答技术人员的问题?

2
假设检验和总变异距离与Kullback-Leibler散度的关系
在我的研究中,我遇到了以下一般性问题:在同一个域中有两个分布和,以及来自这些分布的大量(但有限)样本。样本是从这两个分布之一独立且相同地分布的(尽管分布可能是相关的:例如,可能是和其他分布的混合。)零假设是样本来自,替代假设是样本来自。Q Q P P QPPPQQQQQQPPPPPPQQQ 我试图表征I型和测试样品,了解发行第二类错误和。特别是,除了对和的了解之外,我还对限制一个错误和另一个错误感兴趣。Q P QPPPQQQPPPQQQ 我问了一个关于math.SE 的问题,关于和之间的总变异距离与假设检验的关系,并收到了我接受的答案。这个答案是有道理的,但是我仍然无法将总变化距离和假设检验之间更深层的含义笼罩在脑海中,因为这与我的问题有关。因此,我决定转向这个论坛。QPPPQQQ 我的第一个问题是:总变化是否与 I类错误和II类错误的概率之和无关,而与所采用的假设检验方法无关?本质上,只要存在可能由任一分布生成样本的非零概率,至少一个错误的概率就必须为非零。基本上,无论您进行多少信号处理,您都无法避免假设检验器会出错的可能性。而总变化限制了确切的可能性。我的理解正确吗? I型和II型错误与潜在的概率分布和之间还有另一关系:KL散度。因此,我的第二个问题是:KL散度约束是否仅适用于一种特定的假设检验方法(似乎很多涉及对数似然比方法),还是可以将其普遍适用于所有假设检验方法?如果它适用于所有假设检验方法,那么为什么它似乎与总变异范围有很大不同?它的行为是否有所不同?QPPPQQQ 我的基本问题是:在规定的条件下我应该使用约束还是纯粹为了方便起见?什么时候应该使用一个绑定推导结果并使用另一个绑定? 如果这些问题无关紧要,我深表歉意。我是计算机科学家(所以对我来说,这似乎是一个奇特的模式匹配问题:)。)我对信息论非常了解,并且也具有概率论的毕业背景。但是,我才刚刚开始学习所有这些假设检验的知识。如果需要,我将尽力澄清我的问题。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.