我冒犯以下两个想法:
对于大样本,显着性检验是针对原假设的微小,不重要的偏离而发动的。
在现实世界中,几乎没有零假设是真实的,因此对它们进行显着性检验是荒谬而离奇的。
关于p值就是这样的稻草人论点。推动统计发展的最根本的问题来自看到趋势,并想知道我们所看到的是偶然的还是系统的趋势的代表。
考虑到这一点,作为统计学家,我们确实通常不会相信零假设(即,其中是两组之间某些度量的平均差)。但是,通过双面检验,我们不知道哪个替代假设是正确的!在双面测试中,我们可能愿意说我们在看到数据之前100%确保。但是我们不知道还是。因此,如果我们运行实验并得出结论,我们就拒绝了(正如Matloff可能说的;无用的结论),但更重要的是,我们也拒绝了Ho:μd=0μdμd≠0μd>0μd<0μd>0μd=0μd<0(我说;有用的结论)。正如@amoeba所指出的,这也适用于可能是两面的单面测试,例如测试一种药物是否具有积极作用。
的确,这并不能告诉您效果的大小。但这确实告诉您效果的方向。因此,不要把马车放在马的前面。在开始对效果的大小做出结论之前,我想确信我已经正确理解了效果的方向!
类似地,“ p值在微小的,不重要的影响上突袭”的论点在我看来似乎是错误的。如果您将p值视为衡量数据支持结论方向的量度,那么当样本量足够大时,您当然希望它获得较小的影响。要说这意味着它们没有用,这对我来说很奇怪:这些遭受p值影响的研究领域是否与拥有如此多数据而无需评估其估计值可靠性的领域一样?同样,如果您的问题确实是p值“在微小的影响大小上 ”,那么您可以简单地检验假设和H1:μd>1H2:μd<−1(假设您认为1是最小的重要效果量)。这通常在临床试验中完成。
为了进一步说明这一点,假设我们只是查看了置信区间并丢弃了p值。在置信区间中要检查的第一件事是什么?在过于重视结果之前,效果是否严格是正面的(或负面的)。因此,即使没有p值,我们也会非正式地进行假设检验。
最后,关于OP / Matloff的要求,“给出令人信服的p值论据明显更好”,我认为问题有点尴尬。我之所以这样说是因为,根据您的观点,它会自动回答自己(“给我一个具体的例子,检验假设比不检验假设要好”)。但是,我认为几乎不可否认的一种特殊情况是RNAseq数据。在这种情况下,我们通常查看的是两个不同组(即患病对照)中RNA的表达水平,并试图找到在两个组中差异表达的基因。在这种情况下,效果大小本身甚至没有真正意义。这是因为不同基因的表达水平差异很大,以至于某些基因的表达高2倍并不意味着什么,而在其他严格调控的基因上,高1.2倍的表达是致命的。因此,在首先比较各组时,效果大小的实际大小实际上并不有趣。但是你真的,真的很想知道基因的表达是否在组之间改变以及改变的方向!此外,与置信区间相比,用p值解决多重比较(一次可能要进行20,000个比较)的问题要困难得多。