在最近发表在这里的评论中,有一位评论者指向拉里·瓦瑟曼(Larry Wasserman)的博客,他指出(没有任何消息来源),频繁推断与似然原理相冲突。
似然原理简单地说,产生相似似然函数的实验应产生相似的推论。
这个问题分为两部分:
在最近发表在这里的评论中,有一位评论者指向拉里·瓦瑟曼(Larry Wasserman)的博客,他指出(没有任何消息来源),频繁推断与似然原理相冲突。
似然原理简单地说,产生相似似然函数的实验应产生相似的推论。
这个问题分为两部分:
Answers:
Frequentist方法中与似然原理冲突的部分是统计检验(和p值计算)的理论。下面的示例通常突出显示它。
假设有两个频率偏高的人想研究一种偏见的硬币,该硬币会以未知的变成“头” 。他们怀疑它偏向“尾巴”,所以他们假定相同的零假设p = 1 / 2和相同的备择假设p < 1 / 2。
第一位统计员掷硬币直到出现“正面”,这是6次。第二个决定掷硬币6次,并且在最后一掷中仅获得一个“头”。
根据第一位统计学家的模型,p值的计算如下:
根据第二个统计学家的模型,p值计算如下:
更换通过1 / 2时,首先发现的p值等于1 / 2 5 = 0.03125,第二认定的p值等于7 / 2 × 1 / 2 5 = 0.109375。
所以,他们得到不同的结果是因为他们做了不同的事情,对吗?但是根据似然原理,它们应该得出相同的结论。简而言之,似然原理指出,似然是推理的全部要点。因此,这里的冲突来自于以下事实:两个观测值具有相同的可能性,与成正比(似然性取决于比例常数)。
据我所知,第二个问题的答案更多是有争议的观点。出于上述原因,我个人试图避免执行测试和计算p值,对于本博客文章中介绍的其他原因,我也避免这样做。
编辑:现在我考虑一下,通过置信区间对的估计也将有所不同。实际上,如果模型不同,则CI因构造而异。
我喜欢@ gui11aume(+1)的示例,但是它可以给人一个印象,两个的差异仅是由于两个实验者使用的停止规则不同而引起的。
实际上,我相信这是一个更为普遍的现象。考虑@ gui11aume答案中的第二个实验者:那个投掷6次硬币并且仅在最后一次投掷时观察头部的人。结果如下:什么是 p -值?通常的方法是计算公平硬币会导致一个或更少正面的概率。有 7种可能性出总共 64与一个或更小头,因此 p = 7 / 64 ≈ 0.109。
但是,为什么不采用另一个检验统计呢?例如,在此实验中,我们连续观察了五个尾巴。让我们将最长的尾部序列的长度作为检验统计量。有可能性具有五个或六个尾部成一排,因此p = 3 / 64 ≈ 0.047。
因此,如果在这种情况下将错误率固定为,那么选择检验统计量就可以轻松地使结果有意义或不显着,这与停止规则本身无关。
现在,从哲学上讲,我要说,检验统计量的频繁选择在某种模糊的意义上类似于贝叶斯优先选择。我们选择一个或另一个测试统计数据,是因为我们认为不公平的硬币会以这种或特定方式表现(并且我们希望有能力检测这种行为)。这与先验硬币类型相似吗?
我将非常有兴趣听到有关此推测部分的一些意见,无论是在此处还是在聊天中。
我仍然必须考虑这对我上面的“投机”部分意味着什么。