Ziliak(2011)反对使用p值,并提到了一些替代方案。这些是什么?


25

在最近的一篇文章中讨论了依赖p值进行统计推断的缺点,称为“ Matrixx诉Siracusano和Student诉Fisher的审判统计意义”(DOI:10.1111 / j.1740-9713.2011.00511.x), Stephen T. Ziliak反对使用p值。在最后几段中,他说:

数据是我们已经知道并且肯定的一件事。我们实际上想知道的是完全不同的东西:给定我们拥有的数据,假设成立的可能性为真(或至少在实践中有用)。我们想知道两种药物不同的可能性,以及在给定证据的情况下相差多少。显着性检验(基于转置条件的谬误,即Fisher陷入的陷阱)不会,也无法告诉我们这种可能性。幂函数,预期损失函数以及许多其他的决策理论方法和贝叶斯方法都可以从Student和Jeffreys继承而来,这些方法现已广泛可用并且可以免费在线使用。

幂函数,期望损失函数和“其他决策理论和贝叶斯方法”是什么?这些方法是否被广泛使用?它们在R中可用吗?这些新建议方法如何实施?例如,我将如何使用这些方法在数据集中检验我的假设,否则我将使用常规的两样本t检验和p值?


有许多论文反对仅使用,但这确实取决于IMO。您能否添加更多您感兴趣的信息(参见您的最后一句话)?p
chl

2
我无权访问该文章,但是这种说法表明对正在发生的事情的理解相当有缺陷。尽管理解有误,但其他统计数据值得考虑的结论是合理的。预期损失函数只是损失函数预期的估计(例如,平方误差,对数等)。
Iterator

由于最近发布了一个类似的主题,因此我在Meta CV
Silverfish

Answers:


17

这听起来像是一个困惑的人的另一篇尖锐的论文。费舍尔没有陷入任何这样的陷阱,尽管许多统计专业的学生都这么做。

假设检验是一个决策理论问题。通常,您最终将在两个决策(假设为真或假设为假)之间使用给定阈值进行测试。如果您有一个与单个点相对应的假设,例如,则可以计算出数据为真时的概率。但是,如果不是一点,您会怎么做?得到θ的函数。假设θ 0就是这样的假设,并且假设它为真,您将获得这样的函数,以产生观测数据的概率。该功能是幂函数。非常经典。费舍尔对此一无所知。θ=0θθ0

预期损失是决策理论基本机制的一部分。您具有各种自然状态,以及由此产生的各种可能的数据,以及可以做出的一些可能的决策,并且您希望找到一个从数据到决策的良好功能。您如何定义好?给定您所获得的数据所基于的特定自然状态以及该过程所做出的决定,您的预期损失是多少?在业务问题中,这是最简单的理解(如果我根据过去三个季度中观察到的销售来进行此操作,那么预期的货币损失是多少?)。

贝叶斯过程是决策理论过程的子集。除了琐碎的情况外,预期的损失不足以指定唯一的最佳程序。如果在状态A和状态B中,一种方法都比另一种方法好,那么显然您会更喜欢它,但是如果在状态A中一个方法更好,而在状态B中一个方法更好,您会选择哪种呢?这是贝叶斯程序,最小化和无偏性等辅助思想输入的地方。

t检验实际上是对决策理论问题的完美解决方案。问题是如何在计算的上选择截止值。的给定值对应的给定值α,I型误差的概率,和一组给定功率的β,根据基础参数的大小您正在估计。使用点零假设是一种近似吗?是。在实践中通常有问题吗?不,就像使用Bernoulli的近似理论进行梁的挠度通常在结构工程中就可以了。是具有p -值没用?否。查看您数据的其他人可能想要使用与您不同的α,并且ŤŤαβpα值可容纳该用途。p

考虑到费舍尔负责学生作品的广泛传播,我对他为什么同时命名Student和Jeffreys感到有些困惑。

基本上,盲目使用p值是一个坏主意,它们是一个相当微妙的概念,但这并没有使它们无用。我们是否应该反对数学背景差的研究人员滥用它们?的确如此,但是让我们记住费舍尔试图将一些东西蒸馏下来供现场人员使用之前的样子。


5
+1用于实际回答问题,而附加的(但虚拟的)+1用于质疑报价,这具有挑衅性,但存在问题。我看到您是这里的最新参与者,但已经做出了很多回答:非常感谢和欢迎(有点迟了)对我们的网站!
ub

非常感谢您的详细回答。它有助于认真思考该论文中提出的替代策略。我之所以问这个问题,是因为有些同事用这篇论文说我们根本不应该看p值,而且我意识到我不理解这些替代方案的实际含义。感谢您的澄清!
Ariel

@whuber我认为这根本无法回答问题。OP询问了Ziliak建议的替代方案,但此答案并未解决。例如,齐利亚克(Ziliak)对重要性的批判触及了人们为什么使用5%或1%的重要性。确实没有确凿的理由,他能够将这些水平追溯到Fisher的论文中。这只是一些任意的,方便的数字。与基于金钱优势(即美元价值)的“替代”方法相反。
Aksakal

1
@Aksakal我相信,通过将假设检验与决策理论问题相关联并将p值与预期风险明确关联(基于0-1损失函数),可以为对话做出重要贡献。
ub


5

使用功能进行混合效果建模时,ez包提供似然比ezMixed()。似然比旨在通过比较两种模型的可能性(根据观察到的数据)来量化现象的证据:“受限”模型将现象的影响限制为零,而“不受限制”模型则允许现象的影响为非零。现象。在校正了模型微分复杂性的观测可能性之后(通过Akaike的Information Criterion,渐近等效于交叉验证),该比率量化了该现象的证据。


4

所有这些技术都可以用R来实现,就如同铅笔中的所有代数一样。甚至p值也可以通过R中的许多不同函数来获得,因此决定使用哪个函数来获取p值或贝叶斯后验比指向单个函数或包的指针更为复杂。

一旦您了解了这些技术并确定了您实际上也想要答案的问题,您就可以看到(或我们可以提供更多帮助)如何使用R(或其他工具)来解决。只是说要最小化损失功能或获得后验分布,就和在被问及晚餐要吃什么时回复“食物”一样有用。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.