Questions tagged «statistical-significance»

统计显着性是指如果在抽取此样本的总体中真实效果为0(或某个假设值)的概率可能会发生比样本中的极端高或更高的测试统计。


3
当成对t检验都不存在时,方差分析是否有意义?
如果没有成对t检验,单向(组或“水平”)ANOVA可能会报告显着差异?ñ> 2ñ>2N>2ñ(N− 1 )/ 2ñ(ñ-1个)/2N(N-1)/2 在这个答案中 @whuber写道: 众所周知,即使在任何一对均值的单独[未调整的成对] t检验都不会产生显着结果的情况下,全局ANOVA F检验也可以检测均值的差异。 因此显然有可能,但我不知道如何。什么时候发生,这种情况背后的直觉是什么?也许有人可以提供这种情况的简单玩具示例? 进一步说明: 显然可能存在相反的情况:总体ANOVA可能不显着,而某些成对的t检验错误地报告了显着差异(即,那些都是假阳性)。 我的问题是关于标准的,未经多次比较t检验的调整。如果使用调整后的测试(例如Tukey的HSD程序),那么即使整体ANOVA仍然没有一个是有意义的。这在几个问题中都涉及到,例如,如何获得显着的总体ANOVA,但与Tukey的过程没有成对的显着差异?和显着的方差分析相互作用,但非显着的成对比较。 更新。我的问题最初是指通常的两样本成对t检验。但是,正如@whuber在评论中指出的那样,在方差分析的背景下,t检验通常被理解为事后对比,它使用对所有组进行汇总的组内方差的ANOVA估计(这不是两个组中发生的事情) -样本t检验)。因此,我的问题实际上有两个不同的版本,对它们的回答都被肯定。见下文。

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

8
在没有假设的情况下P值的丰度
我正在流行病学。我不是统计学家,但尽管经常遇到困难,但我还是尝试自己进行分析。大约2年前,我做了第一次分析。从描述表到回归分析,P值被包括在我的分析中的所有地方(我只是做了其他研究人员所做的事情)。渐渐地,在我公寓里工作的统计学家说服我跳过所有(!)p值,除非我真正有一个假设。 问题在于,p值在医学研究出版物中很丰富。通常在太多行上都包含p值;平均值,中位数或其他通常带有p值的描述性数据(学生t检验,卡方等)。 我最近向期刊提交了一篇论文,但我拒绝(礼貌地)在我的“基准”描述性表中添加p值。该文件最终被拒绝。 例如,请参见下图;这是一本受人尊敬的内科杂志上最新发表的文章的描述性表格: 统计人员大部分(如果不是总是)参与这些手稿的审阅。因此,像我这样的外行人希望在没有假设的情况下找不到任何p值。但是它们很丰富,但是对于我来说,其原因仍然难以捉摸。我发现很难相信这是无知。 我意识到这是一个临界的统计问题。但我正在寻找这种现象背后的原因。

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
是什么导致发布的p值在p <.05处不连续?
在最近的一篇论文中,Masicampo和Lalande(ML)收集了许多不同研究中发表的大量p值。他们观察到p值直方图在标准临界值5%处出现了奇怪的跳跃。 Wasserman教授的博客上有一个关于ML现象的精彩讨论: http://normaldeviate.wordpress.com/2012/08/16/p-values-gone-wild-and-multiscale-madness/ 在他的博客上,您将找到直方图: 由于5%水平是惯例而不是自然法则,是什么导致已发布p值的经验分布的这种行为? 选择偏差,正好在规范临界水平之上的p值的系统“调整”,还是什么?


4
Ziliak(2011)反对使用p值,并提到了一些替代方案。这些是什么?
在最近的一篇文章中讨论了依赖p值进行统计推断的缺点,称为“ Matrixx诉Siracusano和Student诉Fisher的审判统计意义”(DOI:10.1111 / j.1740-9713.2011.00511.x), Stephen T. Ziliak反对使用p值。在最后几段中,他说: 数据是我们已经知道并且肯定的一件事。我们实际上想知道的是完全不同的东西:给定我们拥有的数据,假设成立的可能性为真(或至少在实践中有用)。我们想知道两种药物不同的可能性,以及在给定证据的情况下相差多少。显着性检验(基于转置条件的谬误,即Fisher陷入的陷阱)不会,也无法告诉我们这种可能性。幂函数,预期损失函数以及许多其他的决策理论方法和贝叶斯方法都可以从Student和Jeffreys继承而来,这些方法现已广泛可用并且可以免费在线使用。 幂函数,期望损失函数和“其他决策理论和贝叶斯方法”是什么?这些方法是否被广泛使用?它们在R中可用吗?这些新建议方法如何实施?例如,我将如何使用这些方法在数据集中检验我的假设,否则我将使用常规的两样本t检验和p值?

3
为什么进行Kolmogorov-Smirnov测试?
在阅读有关2个样本的KS测试时,我确切地了解它在做什么,但我不知道它为什么起作用。 换句话说,我可以按照所有步骤计算经验分布函数,找到两者之间的最大差值,以找到D统计量,计算临界值,将D统计量转换为p值等。 但是,我不知道为什么其中任何一个实际上告诉我有关这两个分布的任何信息。 有人可以很容易地告诉我,我需要跳过一头驴,计算它跑多快,如果速度小于2 km / hr,那么我会拒绝原假设。当然,我可以做您告诉我的事情,但是那与零假设有什么关系? 为什么2个样本的KS测试有效?计算ECDF之间的最大差异与两个分布的差异有何关系? 任何帮助表示赞赏。我不是统计学家,所以如果可能的话,请假设我是个白痴。

4
校正与测试相关的多个测试的p值(遗传)
我从很多测试中获得了p值,并且想知道在对多个测试进行校正后是否确实存在一些重要的东西。并发症:我的测试不是独立的。我正在考虑的方法(Fisher's Product Method的一个变体,Zaykin等,Genet Epidemiol,2002)需要p值之间的相关性。 为了估计这种相关性,我目前正在考虑引导情况,运行分析并使p值的结果向量相关联。有谁有更好的主意吗?甚至对我的原始问题有一个更好的主意(更正相关测试中的多个测试)? 背景:我正在逻辑上回归我的受试者是否因其基因型(AA,Aa或aa)与协变量之间的相互作用而患有某种疾病。但是,该基因型实际上是很多(30-250)单核苷酸多态性(SNP),它们肯定不是独立的,而是连锁不平衡。

4
在R中确定两个样本比例二项式检验(以及一些奇怪的p值)
我正在尝试解决以下问题: 玩家A在25场比赛中赢得17场比赛,而玩家B在20场比赛中赢得8场比赛-两种比率之间是否有显着差异? 在R中想到的事情如下: &gt; prop.test(c(17,8),c(25,20),correct=FALSE) 2-sample test for equality of proportions without continuity correction data: c(17, 8) out of c(25, 20) X-squared = 3.528, df = 1, p-value = 0.06034 alternative hypothesis: two.sided 95 percent confidence interval: -0.002016956 0.562016956 sample estimates: prop 1 prop 2 0.68 0.40 因此,该测试表明,在95%的置信水平下,差异并不显着。 因为我们知道那prop.test()仅是使用近似值,所以我想通过使用精确的二项式检验使事情更精确-并且我同时采用了两种方法: &gt; …

3
安全地确定A / B测试的样本量
我是一位寻求构建A / B测试工具的软件工程师。我没有扎实的统计背景,但最近几天一直在做大量阅读工作。 我将遵循此处描述的方法,并在下面总结相关要点。 该工具将使设计人员和领域专家可以配置网站,以将在特定URL处接收到的流量划分为两个或多个URL。例如,可以在http://example.com/hello1和http://example.com/hello2之间分配到达http://example.com/hello1的流量。流量将在目标URL之间平均分配,并且将比较每个目标URL上的营销过程的性能。 在此实验中,样本大小N将对应于访问者。该测试将衡量“转化”,该术语描述访问者何时在营销过程中采取特定行动。转化率以百分比表示,并且期望更高的转化率。这使测试成为独立比例的比较。该工具需要能够容易地用于产生安全结果的测试。选择适当的值N很重要。 在上面的链接文章中,采用两个独立比例的幂分析来查找N。这种方法需要事先知道控件的转换率,并指定目标所需的转换改进。它还指定了95%的显着性水平和80%的统计功效。 问题: 这是确定N声音的方法吗?如果是这样,在开始测试之前确定对照转化率的最安全方法是什么? 有没有确定N不需要预先知道控件转换率的合理方法? 链接文章中的方法是否合理?如果没有,您是否可以将我链接到任何可访问且易于消化的方法?


5
评估分布差异的重要性
我有两组数据。每个变量都有不同的分布。我试图确定这两组的分布是否在统计上有意义。我既有原始格式的数据,又有binbined的数据,可以更轻松地处理每个频率计数的离散类别。 我应该使用什么测试/过程/方法来确定这两组是否存在显着差异,以及如何在SAS或R(或Orange)中进行测试?

3
比较和对比,p值,显着性水平和I型错误
我想知道是否有人可以简要介绍p值的定义和使用,显着性水平和I类错误。 我了解p值的定义是“获得至少与我们实际观察到的数据一样极端的测试统计信息的概率”,而显着性水平只是用来衡量p值是否有意义的任意临界值。 。I类错误是拒绝原假设为零的错误。但是,我不确定重要性级别和I类错误之间的区别,这是不是一个相同的概念? 例如,假设有一个非常简单的实验,我将硬币掷1000次并计算它落在“头”上的次数。我的零假设H0是正面= 500(无偏硬币)。然后,将我的显着性水平设置为alpha = 0.05。 我将硬币翻转1000次,然后计算p值,如果p值&gt; 0.05,则我无法拒绝原假设,如果p值&lt;0.05,则我拒绝原假设。 现在,如果我重复进行此实验,每次计算p值,或者拒绝或未能拒绝原假设,并保持对我拒绝/失败拒绝的计数,那么我最终将拒绝5%的原假设实际上是正确的,对吗?这是类型I错误的定义。因此,如果执行重复实验,Fisher重要性检验中的重要性水平实质上就是Neyman-Pearson假设检验中的I型错误。 现在关于p值,如果我从上一个实验中获得了0.06的p值,并且我进行了多次实验并计算了所有从0到0.06得到p值的值,那么我也将没有拒绝真实零假设的可能性为6%?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.