Answers:
假设硬币是公平的,则比起10093个正面和9907个反面的结果,更可能出现10000个正面和10000个反面的结果。
但是,当您说一个真正的实验者不太可能获得相等数量的头和尾时,您隐式地调用了贝叶斯定理。您对真实实验的先前信念是Prob(20000次抛掷中的头数= 10000 |假设实验者没有伪造)接近0。因此,当您看到“头数= 10000”的实际结果时,关于Prob的后验(实验者未伪造|观察到的10000个结果)也接近0。因此,您可以得出结论,实验者伪造了数据。
我喜欢Srikant的解释,并且我认为贝叶斯思想可能是解决此类问题的最佳方法。但是这是没有贝叶斯的另一种查看方式:(在R中)
dbinom(10, size = 20, prob = 0.5)/dbinom(10000, 20000, 0.5)
在我的系统上大约是31.2。换句话说,即使在两种情况下都使用公平硬币,看到20分之10的可能性比看到2万分之一的可能性高30倍以上。随着样本数量的增加,该比率无限制地增加。
这是一种似然比方法,但在我看来,这更像是贝叶斯判断的呼吁。
一个主观贝叶斯的说法实际上是唯一的方法(从统计的角度看),你可以去了解你的直觉,这是-确切地说-一个主题的心理调查,而不是一个统计。但是,使用贝叶斯方法辩称调查人员伪造数据显然是不公平的,因此是无效的。这样做的逻辑是完美的循环:归结为说“基于我对结果的先前信念,我发现您的结果令人难以置信,因此您一定被骗了”。这种不合逻辑的自私自利的论点显然不会在法庭或同行评审过程中站出来。
相反,我们可以从罗纳德·费舍尔(Ronald Fisher)对孟德尔(Mendel)实验的批判中获得一些建议,并进行正式的假设检验。当然,根据结果检验事后假设是无效的。但是必须重复实验才能令人信服:这是科学方法的宗旨。因此,看到一个我们认为可能是伪造的结果后,我们可以制定一个适当的假设来测试未来(或其他)结果。在这种情况下,关键区域将包含一组非常接近预期的结果。例如,在处进行测试= 5%的水平将认为在9,996到10,004之间的任何结果都是可疑的,因为(a)此集合接近我们假设的“伪造”结果,并且(b)在没有伪造的无效假设下(在法庭上证明有罪之前是无辜的!) ,则此范围内的结果发生的可能性只有5%(实际上是5.07426%)。此外,我们可以通过对观察到的比例与预期比例之间的平方求平方,然后在单尾检验中调用Neyman-Pearson引理,将这种看似特殊的方法放在卡方中(la Fisher)。低尾巴并将正态近似应用于二项分布。
尽管这种测试不能证明是伪造的,但可以将其用于该实验者的未来报告中,以评估其主张的可信度,而不必仅凭您的直觉就做出令人不安和无法支持的假设。 这比调用贝叶斯论证来暗示某个人可能完全无辜,而且碰巧很不幸,以至于他们获得了漂亮的实验结果,这更加公平和严格。
我认为你的直觉是有缺陷的。似乎您正在隐式地将单个“非常特殊”的结果(恰好10000个磁头)与一组许多结果(所有“非特殊”的磁头数量接近10000)进行比较。但是,“特殊”的定义是基于我们的心理学的任意选择。二进制10000000000000(十进制8192)或十六进制ABC(十进制2748)又如何呢?正如乔里斯·梅斯(Joris Meys)所评论的那样,贝叶斯的论点在任何数量的正面上都将是相同的,这意味着每个结果都是可疑的。
稍微扩展一下参数:您要检验假设(“实验者在伪造”),然后选择检验统计量(人数)。现在,该检验统计量是否适合告诉您有关您的假设的信息?在我看来,选择的检验统计量似乎不具有信息性(不是假设中指定为固定值的参数的函数)。这又回到了“作弊”是什么意思的问题。如果这意味着实验者可以随意控制硬币,则这不会反映在测试统计信息中。我认为您需要更精确地找到可量化的指标,从而使问题适合于统计检验。
您得出的结论将非常取决于您选择作弊概率的先验以及给定脚蹼躺着时报告的x头的先验概率。
在我看来,将最大质量放在P(报告的10000个头)上是有点反常的。除非记者天真,否则我无法想象有人报告这种伪造的数据(主要是由于您在原始帖子中提到的原因;对于大多数人来说太可疑了。)如果硬币真的不公平,并且有人要举报伪造数据,那么我认为对报告的结果更合理(且非常近似)的先验可能是整数{9900,...,10100}的离散均匀先验P(报告的X头说谎)= 1/201,并且所有其他x的P(报告的x个头)= 0。假设您认为说谎的先验概率为0.5。然后一些后验概率是:
P(报告的说谎| 9900个头)= P(报告的说谎| 10100个头)= 0.70;
P(报告的躺着| 9950个头)= P(报告的躺着| 10050个头)= 0.54;
P(报告躺着10000头)= 0.47。
公平硬币中最合理数量的举报头部将引起怀疑。只是为了证明后验概率对您的先验有多敏感,如果先验作弊的概率降低到0.10,则后验概率变为:
P(报告的说谎| 9900个头)= P(报告的说谎| 10100个头)= 0.21;
P(报告的躺着| 9950个头)= P(报告的躺着| 10050个头)= 0.11;
P(报告躺着10000头)= 0.09。
因此,我认为原始的(且评分很高的答案)可以扩大一点;在没有充分考虑先验信息的情况下,您绝对不能得出数据是伪造的结论。另外,仅凭直觉考虑一下,似乎后躺的可能性受前次躺着的可能性的影响更大,而不是受鳍状肢躺下的报道的头部的先后分布影响(除了先验的在脚蹼躺着的情况下,据报道它们在少数头上的质量,例如在我的示例中)