Questions tagged «hypothesis-testing»

假设检验评估数据是否与给定假设不一致,而不是随机波动的影响。

16
正常性测试“基本上没有用”吗?
一位前同事曾经对我说过以下话: 我们通常将正态性检验应用于过程的结果,该过程的结果在null下会生成仅渐近或接近正常的随机变量 (“渐近”部分取决于一些我们不能做大的数量);在廉价内存,大数据和快速处理器的时代,正态性测试应 始终拒绝大型(尽管不是那么大)样本的正态分布无效。因此,相反地,正常性测试仅应用于较小的样本,前提是它们可能具有较低的功效且对I型速率的控制较少。 这是有效的论点吗?这是众所周知的论点吗?是否有比“正常”更模糊的零假设的著名检验?

16
统计测试中p值和t值的含义是什么?
在修完统计学课程,然后试图帮助同学后,我注意到一个启发很多总部敲门鼓的科目正在解释统计学假设检验的结果。看来学生很容易学习如何执行给定测试所需的计算,但是却迷上了解释结果的过程。许多计算机化工具以“ p值”或“ t值”报告测试结果。 您如何向大学生学习统计学第一门课程解释以下几点: “ p值”相对于要检验的假设是什么意思?在某些情况下应该寻找高p值或低p值吗? p值和t值之间是什么关系?

8
Facebook终结了吗?
最近,本文受到了很多关注(例如,《华尔街日报》的关注)。基本上,作者得出的结论是,到2017年,Facebook将失去80%的成员。 他们的主张基于SIR模型的外推,SIR模型是流行病学中经常使用的隔间模型。他们的数据来自Google搜索“ Facebook”的内容,作者使用Myspace的灭亡来验证他们的结论。 题: 作者是否犯了“相关并不意味着因果关系”的错误?该模型和逻辑可能适用于Myspace,但是对任何社交网络都有效吗? 更新:Facebook回击 与科学原则“相关等于因果关系”相一致,我们的研究明确表明普林斯顿可能有完全消失的危险。 我们真的不认为普林斯顿大学或世界的空气供应很快就会消失。我们热爱普林斯顿大学(和空气),并最后提醒我们:“并非所有研究都是平等的,而且某些分析方法会得出非常疯狂的结论。

14
大数据集不适合假设检验吗?
在《Amstat新闻》最近的一篇文章中,作者(Mark van der Laan和Sherri Rose)说:“我们知道,对于足够大的样本量,每项研究(包括无效假设为零的研究)都将声明具有统计学意义的效果。”。 好吧,我一个人都不知道。这是真的?这是否意味着假设检验对大数据集毫无价值?

8
ASA讨论了限制-有哪些替代方案?
我们已经有多个线程标记为p值,这些线程揭示了许多关于它们的误解。十个月前,我们有一个线程关于心理杂志,“禁止” -值ppp p,现在美国统计协会(2016)指出,与我们的分析,我们“不应该用的计算结束 -值”。ppp 美国统计协会(ASA)认为,科学界可以从一份正式声明中受益,该声明阐明了一些正确使用和解释值的公认原则。ppp 该委员会列出了其他方法作为可能替代或补充:ppp 鉴于普遍存在对误用和误解 ,一些统计学家倾向于用其他方法来补充甚至替代 。这些方法包括强调评估而不是测试的方法,例如置信度,可信度或预测间隔;贝叶斯方法;替代的证据度量,例如似然比或贝叶斯因子;以及其他方法,例如决策理论建模和错误发现率。所有这些措施和方法都依赖于进一步的假设,但它们可能更直接地解决效应的大小(及其相关的不确定性)或假设是否正确。 ppppppp 因此,让我们想象一下后的现实。ASA列出了一些可以代替,但是为什么它们更好?对于一生使用的研究人员,其中哪一个可以代替他?我想,这样的问题会出现在后 -值的现实,所以也许我们尽量在他们面前的一个步骤。可以直接使用的合理替代方法是什么?为什么这种方法应该说服您的首席研究员,编辑或读者?p p ppppppppppppp 正如此后续博客条目所建议的那样,在其简单性方面无与伦比:ppp p值只需要一个统计模型,即可统计要保留的原假设下的统计行为。即使使用替代假设的模型来选择“良好”统计量(将用于构造p值),该替代模型也不必正确才能使p值有效,并且有用(即:控制I型错误在期望的水平上,同时提供检测实际效果的能力)。相比之下,其他(出色且有用的)统计方法(如似然比,效果大小估计,置信区间或贝叶斯方法)都需要假定的模型来保持更广泛的情况,而不仅是在经过测试的零值下。 是它们,还是不正确,我们可以轻松地替换它们? 我知道,这是广义的,但主要问题很简单:什么是可以替代的值的最佳(以及为什么)现实生活中的替代方法?ppp ASA(2016)。ASA关于统计意义和声明。PPP 美国统计学家。(在新闻)

9
p值真的是这样工作吗?每年一百万篇研究论文是否可以基于纯粹的随机性?
我是统计学的新手,我只是在学习理解基本知识,包括。但是我现在脑子里有一个很大的问号,我希望我的理解是错误的。这是我的思考过程:ppp 并非全世界的研究都像“无限猴子定理”中的猴子一样吗?考虑世界上有23887所大学。如果每所大学有1000名学生,那么每年就是2300万学生。 假设每个学生每年使用假设检验进行至少一项研究。α = 0.05α=0.05\alpha=0.05 这并不意味着即使所有研究样本都是从随机种群中抽取的,其中约有5%会“拒绝原假设为无效”。哇。考虑一下。由于“显着”的结果,每年大约有一百万篇研究论文发表。 如果它是这样工作的,那就太恐怖了。这意味着我们理所当然的许多“科学真理”都是基于纯粹的随机性。 一个简单的R代码块似乎支持我的理解: library(data.table) dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value)) dt[p<0.05,] 那么,这条成功的 -fishing:我骗了数以百万计,以为巧克力有助于减肥。这是方法。ppp 这真的就是全部吗?这是“科学”应该如何起作用的吗?

7
如何在t检验或非参数检验之间进行选择,例如小样本中的Wilcoxon
某些假设可以通过学生t检验(可能在两样本案例中使用Welch的不等方差校正)进行检验,也可以通过非参数检验(例如Wilcoxon配对符号秩检验,Wilcoxon-Mann-Whitney U检验,或配对符号测试。我们如何就最适合的测试做出有原则的决定,尤其是在样本量很小的情况下? 许多介绍性教科书和讲义提供了一种“流程图”方法,在此方法中检查正态性(不建议(通过正态性检验,或更广泛地通过QQ图或类似方法))以在t检验或非参数检验之间做出决定。对于不成对的两样本t检验,可以进一步检查方差的均匀性,以决定是否应用韦尔奇校正。这种方法的一个问题是,决定采用哪种测试的方式取决于所观察的数据,以及这如何影响所选测试的性能(功率,I类错误率)。 另一个问题是很难检查小数据集中的正态性:正式测试的能力很低,因此很可能无法检测到违规,但是类似的问题也适用于将数据放在QQ图上。即使是严重的违规行为也可能无法发现,例如,如果分布是混合的,但没有从混合物的一种成分中获得观察结果。与大不同,我们不能依靠中心极限定理的安全网以及检验统计量和t分布的渐近正态性。ñnn 对此的一个原则响应是“安全第一”:无法可靠地验证小样本中的正态性假设,请坚持使用非参数方法。另一个是考虑任何假设正常的理由,从理论上(例如变量是几个随机分量的总和,应用CLT)或凭经验(例如以前的研究,值较大表明变量是正常的),并且仅在存在此类理由的情况下使用t检验。但这通常只能证明近似正态性是正确的,在自由度较低的情况下,很难判断避免使t检验无效所需接近正态性。ñnn 选择t检验或非参数检验的大多数指南都将重点放在正态性问题上。但是少量样本也会引发一些附带问题: 如果执行“无关样本”或“非配对” t检验,是否要使用Welch校正?有些人使用假设检验来检验方差是否相等,但是这里的功效较低。其他人则根据各种标准检查SD是否“合理地”关闭。除非有充分的理由相信总体方差相等,简单地对小样本始终使用Welch校正是否更安全? 如果您将方法的选择视为权能与鲁棒性之间的折衷,那么关于非参数方法的渐近效率的主张将无济于事。根据经验,有时会听到“ 如果数据确实正常,Wilcoxon测试具有t检验的95%的能力,如果数据不正常,则通常功能要强大得多,因此只使用Wilcoxon”,但是如果95%仅适用于大,则对于较小的样本,这是有缺陷的推理。ñnn 小样本可能使评估转换是否适合该数据变得非常困难或不可能,因为很难分辨转换后的数据是否属于(足够)正态分布。因此,如果QQ图显示非常正偏的数据(在记录日志后看起来更合理),对记录的数据进行t检验是否安全?对于较大的样本,这将非常诱人,但是如果很小,除非可能有理由期望对数正态分布首先是对数正态分布,否则我可能会推迟。ñnn 如何检查非参数的假设? 一些消息来源建议在应用Wilcoxon检验(将其作为位置而不是随机优势的检验)之前,先验证对称分布,这在检查正态性方面会带来类似的问题。如果我们首先使用非参数测试的原因是对“安全第一”的口号的盲从,那么从少量样本评估偏斜度的困难显然会导致我们降低配对符号测试的功效。 考虑到这些小样本问题,在确定t测试与非参数测试之间是否有一个良好的过程(希望可以引用)? 有几个很好的答案,但是也欢迎考虑使用其他替代等级测试的答案,例如置换测试。

2
我们对“野外” p黑客了解多少?
短语“ p- hacking”(也称为“数据挖掘”,“监听”或“钓鱼”)是指各种统计不良行为,其结果在人工上具有统计学意义。有许多方法可以取得“更重要的”结果,包括但绝不限于: 仅分析发现模式的数据的“有趣”子集; 未针对多项测试进行适当调整,尤其是事后测试,并且未报告所进行的无关紧要的测试; 尝试对同一假设进行不同的检验,例如参数检验和非参数检验(此线程对此进行了一些讨论),但仅报告了最重要的检验; 试验数据点的包含/排除,直到获得所需的结果。一个机会来自“数据清理异常值”,但也适用于模棱两可的定义(例如在对“发达国家”的计量经济学研究中,不同的定义产生了不同的国家集)或定性的纳入标准(例如在荟萃分析中) ,某个特定研究的方法是否足够健壮到可以包括在内可能是一个很好的平衡论点); 前面的示例与可选停止有关,即,分析数据集并根据到目前为止收集的数据来决定是否收集更多数据(“这几乎是重要的,让我们再测量三名学生!”),而无需对此进行考虑。在分析中; 模型拟合期间的实验,尤其是要包含的协变量,还涉及数据转换/功能形式。 因此,我们知道可以进行p- hacking。它经常被列为“ p值的危险”之一,并且在ASA报告中提到了具有统计意义的意义,在此处通过Cross Validated进行了讨论,因此我们也知道这是一件坏事。尽管有一些可疑的动机和(特别是在学术出版物竞争中)适得其反的动机,但我怀疑无论是故意的渎职行为还是简单的无知,都很难弄清楚这样做的原因。有人从逐步回归中报告p值(因为他们发现逐步过程“产生了良好的模型”,但没有意识到所谓的p-values无效)位于后一个阵营中,但在上面我最后一个要点下,效果仍然是p -hacking。 当然,有证据表明p- hacking已经“存在”,例如Head等人(2015年)正在寻找能够感染科学文献的明显迹象,但是我们目前的证据基础是什么?我知道,Head等人采取的方法并非没有争议,因此,当前的文学状态或学术界的一般思维将很有趣。例如,我们是否有以下想法: 它的流行程度如何,以及在多大程度上可以将它的出现与出版偏见区分开来?(这种区别甚至有意义吗?) 在边界处,效果是否特别严重?例如,是否在处看到了类似的效果,还是我们看到p值的整个范围都受到影响?p ≈ 0.01p ≈ 0.05p≈0.05p \approx 0.05p ≈ 0.01p≈0.01p \approx 0.01 p- hacking的模式在各个学术领域是否有所不同? 我们是否知道p- hacking的哪种机制最常见(上面的要点中列出了其中的一些机制)?是否已证明某些形式比“其他形式”更难发现? 参考文献 负责人ML,Holman,L.,Lanfear,R.,Kahn,AT,&Jennions,MD(2015)。p- hacking在科学领域的范围和后果。PLoS Biol,13(3),e1002106。

3
“天真启动”失败的例子有哪些?
假设我有一组来自未知或复杂分布的样本数据,并且我想对数据的统计量进行一些推断。我的默认倾向是只生成一堆带有替换的引导程序样本,并在每个引导程序样本上计算我的统计量,以为创建一个估计分布。TTTTTTTTT 有哪些不好的主意示例? 例如,如果天真的执行此引导程序将失败,则是一种情况,如果我尝试对时间序列数据使用引导程序(例如,测试我是否具有显着的自相关)。我认为上述天真的引导程序(通过对原始序列进行替换并进行采样来生成第n个引导程序样本系列的第个数据点)是不明智的,因为它忽略了我的原始时间序列中的结构,因此我们获得更先进的引导程序技术,例如块引导程序。iii 换句话说,除了“替换抽样”之外,引导程序还有什么?


3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

4
心理学杂志禁止使用p值和置信区间;停止使用它们确实明智吗?
2015年2月25日,《基本与应用社会心理学》杂志 发表社论,禁止所有未来论文发表和置信区间。ppp 他们具体说(格式和重点是我的): [...]在发表之前,作者将必须删除NHSTP [无效假设重要性检验程序]的所有痕迹(,,,有关“重大”差异的陈述或缺乏它们的陈述) , 等等)。ppptttFFF 类似于NHSTP如何无法提供原假设的概率(需要为原假设提供强有力的条件来拒绝它),置信区间并不能为推断所关注的总体参数可能在规定范围内提供强有力的条件。间隔。因此,BASP也禁止置信区间。 [...]关于贝叶斯程序,我们保留根据具体情况做出判断的权利,因此,BASP也不要求也不禁止贝叶斯程序。 [...]是否需要任何推论统计程序?- 否,但是,BASP将需要强大的描述性统计数据,包括效应量。 让我们在这里不讨论问题和滥用。浏览p值标记可以找到很多有关CV的精彩讨论。对的批判常常与建议一起报告感兴趣参数的置信区间有关。例如,在这个非常有争议的答案中, @ gung建议以周围的置信区间来报告效果大小。但是该杂志也禁止置信区间。pppppp 与采用,置信区间和显着/无关紧要的二分法的“传统”方法相比,这种呈现数据和实验结果的方法的优缺点是什么?对该禁令的反应似乎主要是消极的。那有什么缺点呢?美国统计协会甚至对该禁令发表了简短的令人沮丧的评论,称“该政策可能有其自身的负面影响”。这些负面后果可能是什么?ppp 还是正如@whuber建议的那样,这种方法是否应该被普遍提倡为定量研究的范例?如果没有,为什么不呢? PS。请注意,我的问题与禁令本身无关;这是关于建议的方法。我也不是在问频率论者和贝叶斯论者。《社论》对贝叶斯方法也相当否定。因此本质上是关于使用统计信息与根本不使用统计信息。 其他讨论:reddit,Gelman。

4
何时使用Fisher和Neyman-Pearson框架?
最近,我一直在阅读很多有关Fisher假设检验方法和Neyman-Pearson思想流派之间的差异的信息。 我的问题是,暂时忽略哲学上的反对意见。什么时候应该使用Fisher的统计建模方法,什么时候应该使用显着性水平等的Neyman-Pearson方法?是否有一种实用的方法来决定在任何给定的实际问题中应支持哪种观点?

8
生成与现有变量具有定义的相关性的随机变量
对于模拟研究,我必须生成随机变量,这些变量显示与现有变量的预定义(填充)相关性。ÿYY 我研究了这些R软件包copula,CDVine它们可以生成具有给定依赖关系结构的随机多变量分布。但是,不可能将结果变量之一固定为现有变量。 任何想法和现有功能的链接表示赞赏! 结论: 提出了两个有效的答案,有不同的解决方案: 一个R 脚本由卡拉卡尔,其计算与一个随机变量精确(样品)的相关性,以一个预定义的变量 我发现了一个R 函数,该函数计算与预定义变量具有定义的总体相关性的随机变量 [@ttnphns的补充:我可以自由地将问题标题从单个固定变量的情况扩展到任意数量的固定变量;即如何生成具有预定义正确性和一些固定的现有变量的变量]


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.