Questions tagged «statistical-significance»

统计显着性是指如果在抽取此样本的总体中真实效果为0(或某个假设值)的概率可能会发生比样本中的极端高或更高的测试统计。

3
具有交互作用项的联合模型与用于组比较的单独回归
在收集了先前问题和讨论的宝贵反馈后,我提出了以下问题:假设目标是检测两组之间的效果差异,例如男性与女性之间的差异。有两种方法可以做到这一点: 对两组进行两个单独的回归,并使用Wald检验拒绝(或不拒绝)原假设:,其中是男性回归中一个IV的系数,是相同回归中的系数四,女性退步。H0H0H_0b1−b2=0b1−b2=0b_1-b_2=0b1b1b_1b2b2b_2 将这两个组合并在一起,并通过包含性别虚拟对象和交互项(IV * genderdummy)来运行联合模型。然后,将基于交互作用的符号和显着性的t检验来检测组效应。 如果在情况(1)中拒绝Ho,即组差异很大,但是在情况(2)中交互项项的系数在统计上不重要,即组差异不重要,该怎么办。反之亦然,在情况(1)中不拒绝Ho,并且在情况(2)中交互项很重要。我几次都以这种结果告终,我想知道哪种结果会更可靠,以及这种矛盾背后的原因是什么。 非常感谢!

1
如何使用R计算临界t值?
抱歉,这是一个新问题。我正在尝试第一次自学统计学。我想我的基本过程已经停滞了,但是我很难用R执行它。 因此,我正在尝试评估形式的多元线性回归中回归系数的重要性 y^=Xβ^y^=Xβ^ \hat y = X \hat \beta 我认为用于测试的t统计量由H0:β^j=0,Ha:β^j≠0H0:β^j=0,Ha:β^j≠0H_0: \hat \beta_j = 0, H_a: \hat \beta_j \neq 0 t0=β^j−0se(β^j)=β^jσ^2Cjj−−−−−√=β^jCjjSSRes/(n−p)−−−−−−−−−−−−−−√t0=β^j−0se(β^j)=β^jσ^2Cjj=β^jCjjSSRes/(n−p)t_0 = \frac{\hat \beta_j - 0}{\text{se}(\hat \beta_j)} = \frac{\hat \beta_j}{\sqrt{\hat \sigma^2 C_{jj}}} = \frac{\hat \beta_j}{\sqrt{C_{jj} SS_{Res}/(n-p)}} 其中是对角线在条目。CjjCjjC_{jj}jthjthj^{th}(X′X)−1(X′X)−1(X'X)^{-1} 到目前为止,一切都很好。我知道如何使用R中的矩阵运算来计算所有这些值。但是为了拒绝null,这本书说我需要 |t0|>tα/2,n−p|t0|>tα/2,n−p|t_0| > t_{\alpha/2,n-p} 如何使用R 计算此临界值?tα/2,n−ptα/2,n−pt_{\alpha/2,n-p} 现在,我知道如何找到这些值的唯一方法是查看书后的表格。肯定有更好的办法。


1
距离差的统计意义
我在二维网格上有3000多个矢量,具有近似均匀的离散分布。一些向量对满足一定条件。注意:该条件仅适用于向量对,不适用于单个向量。我有大约1500个这样的对的列表,我们称其为组1。组2包含所有其他向量对。我想找出第1组中一对向量之间的距离是否明显小于两个向量之间的平均距离。我怎样才能做到这一点? 统计检验:中心极限定理适用于我的情况吗?也就是说,我可以采用距离样本的方法,并使用学生的t检验比较满足条件的样本的方法与不满足条件的样本的方法吗?否则,什么统计检验适用于此? 样本数量和样本数量:我知道这里有两个变量,对于两个组中的每一个,我需要获取n个大小为m的样本,并取每个样本的平均值。有没有选择n和m的原则方法?它们应该尽可能大吗?还是只要它们具有统计意义,就应该尽可能地少?这两个组的名称是否应该相同?还是对于包含更多向量对的第2组,它们应该更大?

6
英国退欧:“离开”是否具有统计学意义?[关闭]
已关闭。这个问题是基于观点的。它当前不接受答案。 想改善这个问题吗?更新问题,以便通过编辑此帖子以事实和引用的形式回答。 3年前关闭。 在这篇文章中,我们提出一个有关自然现象的问题,即人类试图通过计算选票来寻求决策。这个问题涉及的这种自然现象的具体事件是英国脱欧案。 注意:问题不在于政治。目的是尝试从基于观察的统计角度讨论这种自然现象。 具体问题是: 问:什么是 Brexit票离开的意思吗?例如,这是否意味着公众真的想离开欧盟?这是否仅表示公众不确定,需要更多时间思考?或者是别的什么?51.9 %51.9%51.9\% 假设1:投票过程中没有错误。

3
如何选择置信度?
我经常使用90%的置信度,因为它比95%或99%具有更大的不确定性。 但是,关于如何选择正确的置信度水平有任何指导原则吗?还是不同领域使用的置信度准则? 此外,在解释和显示置信度时,是否有任何指南将数字转换为语言?例如,诸如针对Pearson's r的指南(编辑:这些描述适用于社会科学): http://faculty.quinnipiac.edu/libarts/polsci/Statistics.html 更新资料 感谢您下面的回答。他们都很乐于助人,有见地和有启发性。 此外,以下是一些不错的文章,这些文章是我在研究此问题时遇到的有关选择重要性级别(基本上是同一问题)的文章。他们验证以下答案中的内容。 “ 0.05的显着性意义是什么?” http://www.p-value.info/2013/01/whats-significance-of-005-significance_6.html “关于.05级统计意义的起源” http://www.radford.edu/~jaspelme/611/Spring-2007/Cowles-n-Davis_Am-Psyc_orignis-of-05-level.pdf “科学方法:统计错误” http://www.nature.com/news/scientific-method-statistical-errors-1.14700

1
如果检验统计量的分布是双峰的,那么p值意味着什么?
假设零假设为真,则将P值定义为至少获得与所观察到的极端一样的检验统计量的概率。换一种说法, P(X≥t|H0)P(X≥t|H0)P( X \ge t | H_0 ) 但是,如果检验统计量在分布上是双峰的,该怎么办?在这种情况下,p值意味着什么吗?例如,我将在R中模拟一些双峰数据: set.seed(0) # Generate bi-modal distribution bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5)) hist(bimodal, breaks=100) 并假设我们观察到的测试统计值为60。在这里,从图片中我们知道该值是不太可能的。因此,理想情况下,我希望使用一个统计过程(例如p值)来揭示这一点。但是,如果我们按照定义的p值进行计算,则会得到相当高的p值 observed <- 60 # Get P-value sum(bimodal[bimodal >= 60])/sum(bimodal) [1] 0.7991993 如果我不知道分布,我将得出结论,我观察到的仅仅是偶然的机会。但是我们知道这是不对的。 我想我要问的问题是:为什么在计算p值时,为什么要计算“至少与所观察值一样极端”的值的概率?如果遇到上面模拟的情况,替代解决方案是什么?

2
统计检验值远非总体平均值:Z检验还是T检验?
值与值列表相比有多重要?在大多数情况下,统计测试涉及将样本集与总体进行比较。在我的情况下,样本是由一个值构成的,我们将其与总体进行比较。 我是统计假设检验中的最重要人物,可能面临最基本的问题。这不仅是一项测试,而且包括数百项测试。我有一个参数空间,并且必须对每个点进行显着性检验。将为每个参数组合生成值和背景列表(填充)。然后按p值对它进行排序,并找到有趣的参数组合。实际上,找到此p值高(无意义)的参数组合也很重要。 因此,让我们进行一个测试:我有一个从选定的集合生成的计算值和一个通过选择随机训练集计算的背景值。计算值是0.35,背景集(可能是?)正态分布,平均值为0.25,且std非常窄(e-7)。我实际上对分布情况一无所知,因为样本是通过其他方式计算得出的,它们不是某种分布中的随机数样本,因此背景是正确的词。 零假设是“样本检验的平均值等于我的计算值0.35”。我什么时候应该将其视为Z检验或T检验?我希望该值显着高于总体平均值,因此这是单尾检验。 对于样本应考虑的内容,我有点困惑:我要么拥有一个样本(观测值),而且将背景列表作为总体,要么我的样本是背景列表,并且我将其与整体(未抽样)进行比较根据原假设的总体应该具有相同的均值。一旦决定,我猜测试会朝不同的方向发展。 如果是T检验,如何计算其p值?我想自己计算而不是使用R / Python / Excel函数(我已经知道该怎么做),因此我必须首先建立正确的公式。 T=Z/s,T=Z/s,T=Z/s,Z=X¯σn√Z=X¯σnZ=\frac{\bar{X}}{\frac{\sigma}{\sqrt{n}}}s=σ^/σs=σ^/σs=\hat{\sigma}/\sigma 如何计算p值?(即不使用R / Python / Excel函数或p值表查找,而是根据公式实际计算它,因为我想知道自己在做什么) 如何根据样本量确定显着性阈值?(一个公式会很好)

2
如何对带有随机斜率的混合效应回归模型进行MCMC假设检验?
库languageR提供了一种方法(pvals.fnc),可以使用lmer在混合效果回归模型拟合中对固定效果进行MCMC重要性测试。但是,当lmer模型包含随机斜率时,pvals.fnc会给出错误。 有没有办法对此类模型进行MCMC假设检验? 如果是这样,怎么办?(要被接受,答案应该在R中有一个可行的示例)。如果没有,是否存在无法解决的概念/计算原因? 这个问题可能与此有关,但我对其中的内容了解得不够清楚。 编辑1:概念证明表明pvals.fnc()仍然对lme4模型执行“某些操作”,但对于随机斜率模型则不执行任何操作。 library(lme4) library(languageR) #the example from pvals.fnc data(primingHeid) # remove extreme outliers primingHeid = primingHeid[primingHeid$RT < 7.1,] # fit mixed-effects model primingHeid.lmer = lmer(RT ~ RTtoPrime * ResponseToPrime + Condition + (1|Subject) + (1|Word), data = primingHeid) mcmc = pvals.fnc(primingHeid.lmer, nsim=10000, withMCMC=TRUE) #Subjects are in both …

1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …

1
违反正常程度的一个好的指标是什么?该指标上可以附加哪些描述性标签?
内容: 在上一个问题中,@ Robbie在约600个案例中的一项研究中询问为什么正态性检验表明存在显着的非正态性,而这些图却表明正态分布。一些人指出,正态性的显着性检验不是很有用。对于较小的样本,此类测试没有足够的能力来检测轻微的正常违反情况,而对于较大的样本,它们将检测到足够小的无关紧要的正常违反情况。 在我看来,这个问题类似于关于显着性检验和效应大小的辩论。如果仅关注显着性测试,则在有大量样本时,您可以检测到与实际目的无关的微小影响,而对于小型样本,您将没有足够的能力。 在某些情况下,我什至看到教科书建议人们可以拥有一个“太大”的样本,因为微小的影响在统计上很重要。 在意义测试和效果大小的上下文中,一个简单的解决方案是专注于估计感兴趣的效果的大小,而不是迷恋是否存在效果的二元决策规则。对效应大小的置信区间就是这样一种方法,或者您可以采用某种形式的贝叶斯方法。此外,各种研究领域都建立了关于给定效果大小在实际意义上意味着好坏的想法,应用启发式标签,例如“小”,“中”和“大效果”。这也导致了明智的建议,即最大化样本大小,以便在估计给定感兴趣参数时最大化准确性。 这使我想知道,为什么在假设检验,尤其是正态检验方面,没有更广泛地采用基于效果大小的置信区间的类似方法。 题: 数据违反常态程度的最佳单一指标是什么? 还是谈论多个违反正常性的指标(例如,偏度,峰度,离群率)是更好的选择吗? 如何计算指数的置信区间(或使用贝叶斯方法)? 您可以为该索引上的点分配什么样的口头标签,以表明违反正常性的程度(例如,轻度,中度,强烈,极端等)?这样的标签的目的可能是帮助经验不足的分析人员在违反正常性问题时训练他们的直觉。



2
了解Gelman&Carlin“超越功率计算:…”(2014)
我正在阅读Gelman&Carlin “超越功率计算:评估S型(符号)和M型(幅值)错误”(2014年)。我试图理解主要思想,主要思路,但我感到困惑。有人可以帮我提炼精华吗? 这篇论文是这样的(如果我理解正确的话)。 心理学方面的统计研究经常受到小样本困扰。 在给定的研究中,以统计学上显着的结果为条件, (1)可能会严重高估真实的效应量; (2)除非有足够大的样本量,否则效应的迹象很有可能相反。 以上是使用对种群效应大小的先验猜测显示的,通常认为效应很小。 我的第一个问题是,为什么要以统计显著性为条件?是否反映了出版偏见?但这似乎并非如此。那为什么呢? 我的第二个问题是,如果我自己进行研究,是否应该对结果进行不同于以往的处理(我做常客统计,对贝叶斯不太熟悉)?例如,我将获取一个数据样本,估算一个模型,并记录一个点估算值,以获取感兴趣的效果以及围绕它的置信度。我现在应该怀疑我的结果吗?如果统计意义重大,还是应该不信任它?给定的任何先前更改如何? (1)统计研究的“生产者”和(2)应用统计论文的读者的主要收获是什么? 参考文献: 盖尔曼,安德鲁和约翰·卡林。“超出功率计算:评估类型S(符号)和类型M(幅度)错误。” 心理科学观点 9.6(2014):641-651。 PS:我认为对我来说,新的要点是包括先验信息,我不确定该如何对待(来自常客主义范式)。

2
通过重新运行实验来验证Web A / B测试-这有效吗?
某天,一家a / b测试公司举行的网络研讨会上,其驻地“数据科学家”解释说,您应该通过重新运行实验来验证结果。前提是,如果您选择95%的置信度,则有5%(1/20)的假阳性机会。如果您以相同的约束条件重新运行实验,那么现在会有1/400(我假设他们将其确定为0.05 ^ 2 = 1/400) 这是有效的声明吗?(即“两次运行,两次统计显着性获胜=假阳性概率的1/400”)?这是提高您的显着性水平的更好方法吗? 从业务的角度来看,我所关心的是通过重新运行实验,使更多的用户接触到劣等的页面(处理),从而失去了潜在的销售额。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.