Questions tagged «statistical-significance»

统计显着性是指如果在抽取此样本的总体中真实效果为0(或某个假设值)的概率可能会发生比样本中的极端高或更高的测试统计。

5
测试分类结果的重要性的正确方法是什么
在许多情况下,您可能需要训练几个不同的分类器,或者使用几种不同的特征提取方法。在文献中,作者经常给出一组数据随机分割的均值分类误差(即在双重嵌套的交叉验证之后),有时还会给出该分割误差的方差。但是,仅凭这一点还不足以说一个分类器明显优于另一个分类器。我已经看到许多不同的方法-使用卡方检验,t检验,ANOVA和事后检验等。 应该使用什么方法确定统计显着性?这个问题的根本是:我们应该对分类分数的分布做出什么假设?

3
如何计算NPS(净发起人得分)结果中的误差幅度?
我将让Wikipedia解释如何计算NPS: 通过在0到10的评分等级上向客户提出一个问题来获得净发起人得分,其中“极有可能”是10,“完全没有可能”是0:“您向我们推荐公司的可能性有多大?朋友还是同事?” 根据他们的回答,客户可分为三类之一:促销员(9-10级),被动员(7-8级)和批评者(0-6级)。然后从促进者的百分比中减去批评者的百分比,以获得净促进者得分(NPS)。NPS可以低至-100(每个人都是破坏者)或高至+100(每个人都是启动子)。 几年来我们一直定期进行这项调查。每次我们都会收到数百个回复。结果分数在一段时间内变化了20-30分。我正在尝试弄清楚哪些得分变动很重要(如果有)。 如果这真的太困难了,那么我也有兴趣尝试根据计算的基础找出误差范围。每个“桶”(促销者,被动者,批评者)的误差幅度是多少?甚至,如果我只看分数的平均值,将每次调查的数据减少到一个数字,误差幅度是多少?那能带我到任何地方吗? 这里的任何想法都是有帮助的。除了“不使用NPS”。这个决定是我改变的能力!

2
如何总结医疗对象的合理间隔
使用Stan和frontend软件包,rstanarm或者brms像以前一样,我可以像以前一样轻松地以贝叶斯方式分析数据lme。虽然我桌上有Kruschke-Gelman-Wagenmakers等的大部分书籍和文章,但这些内容并没有告诉我如何总结医学观众的结果,这些结果困扰于贝叶斯愤怒的Skylla和医学评论家的Charybdis( “我们需要意义,而不是那些分散的东西”)。 例如:胃频率(1 / min)分为三组;健康对照是参考。每个参与者都有几种度量,因此常客我使用以下混合模型lme: summary(lme(freq_min~ group, random = ~1|study_id, data = mo)) 略有修改的结果: Fixed effects: freq_min ~ group Value Std.Error DF t-value p-value (Intercept) 2.712 0.0804 70 33.7 0.0000 groupno_symptoms 0.353 0.1180 27 3.0 0.0058 groupwith_symptoms 0.195 0.1174 27 1.7 0.1086 为简单起见,我将使用2 * std错误作为95%CI。 在常客的背景下,我将其总结为: 在对照组中,估计频率为2.7 / min(也许在此处添加CI,但由于绝对和差异CI造成的混淆,我有时会避免这样做)。 在no_symptoms组中,频率比对照组高0.4 …

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

3
p值0.04993是否足以拒绝原假设?
在Wilcoxon符号秩统计显着性检验中,我们遇到了一些数据,得出值为。在的阈值下,此结果是否足以拒绝原假设,还是更安全地说该检验没有结论,因为如果将p值四舍五入到小数点后三位,则它变为?0.04993 p &lt; 0.05 0.050ppp0.049930.049930.04993p &lt; 0.05p&lt;0.05p < 0.050.0500.0500.050

4
相互比较p值有什么意义?
我有两个人口(男人和女人),每个人口包含样本。对于每个样本,我都有两个属性A和B(第一年平均成绩和SAT分数)。我分别对A和B使用了t检验:两者都发现两组之间存在显着差异。A(和B(。p = 0.008 p = 0.002100010001000p = 0.008p=0.008p=0.008p = 0.002p=0.002p=0.002 可以断言属性B比属性A更好地被识别(更重要)吗?还是t检验只是是或否(有效或无效)度量? 更新:根据这里的评论以及我在Wikipedia上所读的内容,我认为答案应该是:删除无意义的p值并报告效果大小。有什么想法吗?

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

3
与错误发现率和多重测试相混淆(在Colquhoun上,2014年)
我读过David Colquhoun的这篇出色论文:对错误发现率和对p值的误解的调查(2014年)。从本质上讲,他解释了为什么即使我们将I型错误控制在,错误发现率(FDR)仍可以高达。30%30%30\%α=0.05α=0.05\alpha=0.05 但是,对于在多次测试中应用FDR控制会发生什么,我仍然感到困惑。 说,我已经对许多变量中的每一个进行了测试,并使用Benjamini-Hochberg过程计算了。我得到一个对有意义的变量。我问这个发现是什么FDR?qqqq=0.049q=0.049q=0.049 我可以安全地假设,从长远来看,如果我定期进行此类分析,则FDR不是,而是低于,因为我使用了Benjamini-Hochberg?这感觉是错误的,我想说值对应于Colquhoun论文中的值,并且他的推理也适用于此,因此使用阈值可能会“ 冒充自己”(如在的案件中,Colquhoun表示。但是,我试图更正式地解释它,但失败了。30%30%30\%5%5%5\%qqqpppqqq0.050.050.0530%30%30\%

1
我如何找到统计表中未给出的值?
人们通常使用程序来获取p值,但有时出于某种原因(可能出于某种原因)可能需要从一组表中获取临界值。 给定具有有限数量的显着性水平和有限数量的自由度的统计表,我如何在其他显着性水平或自由度下获得近似临界值(例如使用,卡方或表) ?tŤtFFF 也就是说,如何在表中的值之间找到“值”?

2
假设检验及其对时间序列的意义
查找两个总体时,通常的显着性检验是t检验,如果可能的话,配对t检验。这假设分布是正态的。 是否存在类似的简化假设,可以对时间序列进行显着性检验?具体来说,我们有两只老鼠,它们的数量相对较小,接受不同的治疗,并且我们每周测量一次体重。两张图均显示平滑增加的功能,其中一张图绝对高于另一张图。在这种情况下,我们如何量化“确定性”? 零假设应该是随着时间的流逝,两个总体的权重“以相同的方式表现”。如何用一个仅包含少量参数的相当普遍(就像正态分布一样普遍)的简单模型来表述呢?一旦做到这一点,一个人怎么能测量重要性或类似于p值的东西?如何配对小鼠,使其具有尽可能多的特征,并且每对具有两个种群中的一个代表? 我欢迎您找到有关时间序列的一些相关的,写得很好且易于理解的书或文章。我从无知开始。谢谢你的帮助。 大卫·爱泼斯坦

3
如何模拟具有统计意义的数据?
我正在读10年级,正在寻找模拟机器学习科学博览会项目的数据的方法。最终模型将用于患者数据,并将预测一周中某些时间与其在单个患者数据内对药物依从性的影响之间的相关性。坚持值将是二进制的(0表示未服用药物,1表示已服用药物)。我正在寻找一种机器学习模型,该模型能够从一周中的时间之间的关系中学习,并将一周分为21个时间段,一天中的每个时间段分为三个时间段(1是星期一上午,2是星期一下午,等等。)。我正在寻找模拟1,000名患者的数据。每位患者将获得30周的数据。我想插入与一周的时间和遵守相关的某些趋势。例如,在一个数据集中,我可以说一周中的第7个时隙与依从性在统计上有显着关系。为了确定该关系是否具有统计显着性,要求我执行两个样本t检验,将一个时隙与其他每个时隙进行比较,并确保显着性值小于0.05。 但是,与其模拟自己的数据并检查我插入的趋势是否显着,不如倒退工作,也许我使用一个程序,要求我在一定的时隙内分配一个重要的趋势,并坚持执行。二进制数据中包含我所要求的趋势,以及其他时隙中的二进制数据,其中包含一些噪声但没有产生统计上显着的趋势。 是否有任何程序可以帮助我实现这样的目标?或者也许是python模块? 任何帮助(甚至对我的项目的一般性评论)将不胜感激!!

3
关于费舍尔的确切测试:如果这位女士不知道第一个牛奶杯的数量,那么哪个测试合适?
在RA Fisher 著名的女士品尝茶实验中,该女士被告知有多少杯牛奶优先/茶优先的杯子(每8杯中有4杯)。这符合费舍尔精确检验的固定边际总假设。 我当时想和我的朋友一起做这个测试,但是这种想法震惊了我。如果女士能真正分辨出牛奶优先和茶优先杯子之间的区别,那么她应该能够算出牛奶优先/茶优先杯子的边际总量以及哪个是哪个。 因此,问题就来了:如果RA Fisher不告知女士牛奶第一杯和茶第一杯的总数,可以使用哪种测试?


5
请问 -squared有 -值?
我似乎对尝试理解平方值是否也具有p值感到困惑。prrrppp 据我了解,与一组数据点线性相关,的取值范围是-1到1,无论该值是多少,它的p值都可以显示r是否与0显着不同(即,如果两个变量之间存在线性关系)。− 1rrr−1−1-1111ppprrr000 继续进行线性回归,可以将函数拟合到数据,由等式Y=a+bXY=a+bXY = a + bX。aaa和bbb (截距和斜率)也具有ppp以显示它们是否明显不同于000。 假设我至今都明白了一切正确的,是ppp的-值rrr和ppp为-值bbb一样的东西吗?那么说不是p值不是rrr平方而是ppp值是rrr或bbb是否正确呢?

1
如何检验线性回归中分类变量的统计显着性?
如果在线性回归中我有分类变量...我怎么知道分类变量的静态意义? 假设因子X1X1个X_1有10个级别...在一个因子变量的保护下将有10个不同的最终t值X1X1X_1... 在我看来,是否对因子变量的每个水平都进行了统计意义检验?没有? @Macro:根据您的建议,我建立了以下示例: 通过下面的模型比较,似乎x3很有用,并且必须将其包括在模型中。 但是实际上那是错误的... n=100 x1=1:n x2=(1:n)^2 x3=rnorm(n) ee=rnorm(n) y=3*x1-2*x2+x3+3+ee lm1=lm(y~x1+x2+x3) summary(lm1) lm2=lm(y~x1+x2) summary(lm2) anova(lm1, lm2) &gt; anova(lm1, lm2) Analysis of Variance Table Model 1: y ~ x1 + x2 + x3 Model 2: y ~ x1 + x2 Res.Df RSS Df Sum of Sq F Pr(&gt;F) 1 …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.