如果似然性原则与频繁出现的可能性发生冲突,那么我们是否丢弃其中之一?


19

在最近发表在这里的评论中,有一位评论者指向拉里·瓦瑟曼Larry Wasserman)的博客,他指出(没有任何消息来源),频繁推断与似然原理相冲突。

似然原理简单地说,产生相似似然函数的实验应产生相似的推论。

这个问题分为两部分:

  1. 频繁推断的哪些部分,风格或派别特别违反似然性原则?

  2. 如果发生冲突,我们是否必须丢弃其中一个?如果是这样,那是哪一个?我会为就事论事表明,如果我们要丢弃的东西那么我们应该抛弃频率论者推断其冲突的部分,因为黑客罗亚尔使我确信,可能性的原则是不言自明的。


2
我从来不明白为什么似然原理应该是一个公理。
斯蒂芬·洛朗

6
嗨,斯特凡。问题在于,伯恩鲍姆证明了“可能性”等同于其他两个很自然的原理,以至于它们必须被接受。我们对此结果进行了简短的评论。在这里:ime.usp.br/~pmarques/papers/redux.pdf

@Zen谢谢。乍一看,我不同意的一点是,这句话写在条件性原则之下:“重要的是实际发生的事情”。我应该说“重要的是在可能发生的问题中实际上发生了什么”(对不起,如果我的英语不正确)。这就是我在与gui11aume的讨论中所声称的观点:从某种意义上说,似然原理认为实验的设计无关紧要,我对此并不认同。
斯特凡·洛朗

1
@Zen现在,我已经仔细阅读了您的论文。的确,很难不同意条件性原则和不变性原则。
斯特凡纳·洛朗

1
出于实用原因,如今LP并不那么受欢迎。通过虔诚地采用它,您可以避免使用依赖模型的先验条件,例如Jeffreys的先验条件,共轭先验条件和假设检验,这些在很多情况下都是有用的。我认为,不能统计学一样以统计学的方式对统计学进行有意义的公理化(尽管这种讨论听起来像这样)。但是,重要的是要确定不同范例的优缺点。

Answers:


12

Frequentist方法中与似然原理冲突的部分是统计检验(和p值计算)的理论。下面的示例通常突出显示它。

假设有两个频率偏高的人想研究一种偏见的硬币,该硬币会以未知的变成“头” 。他们怀疑它偏向“尾巴”,所以他们假定相同的零假设p = 1 / 2和相同的备择假设p < 1 / 2pp=1/2p<1/2

第一位统计员掷硬币直到出现“正面”,这是6次。第二个决定掷硬币6次,并且在最后一掷中仅获得一个“头”。

根据第一位统计学家的模型,p值的计算如下:

p(1p)5+p(1p)6+...=p(1p)511p=p(1p)4.

根据第二个统计学家的模型,p值计算如下:

(61)p(1p)5+(60)(1p)6=(5p+1)(1p)5.

更换通过1 / 2时,首先发现的p值等于1 / 2 5 = 0.03125,第二认定的p值等于7 / 2 × 1 / 2 5 = 0.109375p1/21/25=0.031257/2×1/25=0.109375

所以,他们得到不同的结果是因为他们做了不同的事情,对吗?但是根据似然原理,它们应该得出相同的结论。简而言之,似然原理指出,似然是推理的全部要点。因此,这里的冲突来自于以下事实:两个观测值具有相同的可能性,与成正比(似然性取决于比例常数)。p(1p)5

据我所知,第二个问题的答案更多是有争议的观点。出于上述原因,我个人试图避免执行测试和计算p值,对于本博客文章中介绍的其他原因,我也避免这样做。

编辑:现在我考虑一下,通过置信区间对的估计也将有所不同。实际上,如果模型不同,则CI因构造而异。p


1
我的印象是,在频繁性统计数据(假设检验,置信区间)中明显违反了似然原理,因为我们考虑了每种可能结果的可能性,而不仅考虑了基于实际结果的可能性。对 ?
斯蒂芬·洛朗

@StéphaneLaurent是的,这也是我的理解方式。詹姆斯·伯杰(James Berger)在《统计决策理论》和《贝叶斯分析》中引用了一个不错的话,他说,由于从未观察到的数据,常客有时会拒绝该假设(听起来更好,但我不记得了)。
gui11aume12年

谢谢,gui11aume。我是否可以将其解释为一个示例,其中P值的“含义”随实验人员的意图而变化?我假设将P值解释为某种阈值假阳性错误率是这种情况,因为在原假设下它们必须均匀分布吗?费舍尔方法是否需要将P值表示为证据强度的指标?
Michael Lew 2012年

4
(+1)当其中一个模型涉及停止规则时,通常会出现这种差异。

1
@Scortchi实际上,我误以为P值之一指向正确的似然函数,而另一个则不正确:它们都指向同一个似然函数,它确实提供了与正面概率有关的证据。您应该忽略我先前评论的最后两句话。(我无法编辑,可以吗?)
Michael Lew

4

我喜欢@ gui11aume(+1)的示例,但是它可以给人一个印象,两个的差异仅是由于两个实验者使用的停止规则不同而引起的。p

实际上,我相信这是一个更为普遍的现象。考虑@ gui11aume答案中的第二个实验者:那个投掷6次硬币并且仅在最后一次投掷时观察头部的人。结果如下:什么是 p -值?通常的方法是计算公平硬币会导致一个或更少正面的概率。有 7种可能性出总共 64与一个或更小头,因此 p = 7 / 64 0.109

TTTTTH,
p764p=7/640.109

但是,为什么不采用另一个检验统计呢?例如,在此实验中,我们连续观察了五个尾巴。让我们将最长的尾部序列的长度作为检验统计量。有可能性具有五个或六个尾部成一排,因此p = 3 / 64 0.0473p=3/640.047

因此,如果在这种情况下将错误率固定为,那么选择检验统计量就可以轻松地使结果有意义或不显着,这与停止规则本身无关。α=0.05


投机部分

现在,从哲学上讲,我要说,检验统计量的频繁选择在某种模糊的意义上类似于贝叶斯优先选择。我们选择一个或另一个测试统计数据,是因为我们认为不公平的硬币会以这种或特定方式表现(并且我们希望有能力检测这种行为)。这与先验硬币类型相似吗?

ppp

我将非常有兴趣听到有关此推测部分的一些意见,无论是在此处还是在聊天中。


通过@MichaelLew讨论后更新

ppp

我仍然必须考虑这对我上面的“投机”部分意味着什么。


有趣的想法。是的,我同意LP和P值之间不存在冲突,只要P值不像似然函数那样被解释为证据即可给定统计模型,似然函数包含与感兴趣参数有关的证据。当您更改测试统计量时,您也会更改模型,因此替代模型的似然函数将(很可能)与原始模型的似然函数不同。
Michael Lew

p

除此之外,我发现了这个问题,因为我正在重新阅读您的“对P还是不对P”论文(并用Google搜索“似然性原理”)。我通常喜欢这篇论文,但是我对4.4节完全感到困惑。您写道,不应通过考虑停止规则来“调整” p值。但我认为公式5-6中没有任何调整。“未调整的” p值是什么?您是说其中一项已调整,另一项未调整吗?如果是这样,哪一个呢?为什么不呢?
变形虫说恢复莫妮卡

统计模型通常被忽略或默认为不变的。但是,对于硬币,它包括一个固定的未知概率的机率,随机选择的观察值,以及对于不进行试验的测试统计量的可能结果的二项式分布。我不知道连续测试统计数据的结果分布是什么,但我怀疑这是不同的。即使相同,具有测试统计量的模型也不是与原始模型相同的模型,因此,即使包含所有证据,似然函数也可能不同。
Michael Lew

我几乎完成了对该纸的完全修改。这与该讨论有关,但尚未准备好提交。(这是聊天吗?)
Michael Lew,2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.