关于为什么从20,000次扔掉10,000个头部的统计论点表明数据无效

11

假设我们反复抛硬币，而且知道正面和反面的数量应该大致相等。当我们看到10个正面和10个反面的结果，总共进行20次抛掷时，我们相信结果，并倾向于认为硬币是公平的。

好吧，当您看到10000个头和10000个尾巴等总共20,000次抛掷的结果时，我实际上会质疑结果的有效性（实验者是否伪造了数据），因为我知道这比说结果更不可能10093头和9907头。

我的直觉背后的统计论据是什么？

confidence-interval binomial

— 海宝堂
source

21

假设硬币是公平的，则比起10093个正面和9907个反面的结果，更可能出现10000个正面和10000个反面的结果。

但是，当您说一个真正的实验者不太可能获得相等数量的头和尾时，您隐式地调用了贝叶斯定理。您对真实实验的先前信念是Prob（20000次抛掷中的头数= 10000 |假设实验者没有伪造）接近0。因此，当您看到“头数= 10000”的实际结果时，关于Prob的后验（实验者未伪造|观察到的10000个结果）也接近0。因此，您可以得出结论，实验者伪造了数据。

很好解释！贝叶斯定理方法的一个很好的例子。

— Tal Galili 2010年

1

@Srikant：该先验不能被正式定义。无论如何，当N = 20000时，无论X的值如何，也不管您的先验知识是什么，Prob（头数= X |实验者都没有伪造）总是在零附近。因此，任何数字的后验也总是接近于0。我不知道这与贝叶斯定理有什么关系。

— Joris Meys 2010年

所有这一切都来自一个为了证明上帝存在而陷入困境的家伙。真的很优雅

— Brandon Bertelsen

1

从更普遍的角度来看，我同意的观点是，贝叶斯定理在这里起作用。具体来说，存在作弊和诚实实验者的替代可能性（对应于不同的生成过程）。建立作弊是相对于直观的，因此可悲的是未指定的作弊程序的后验推论。

— conjugateprior

1

@Srikant @whuber：组合...你是对的。我从一个统一的概率开始，在这种情况下这是毫无意义的。我的坏人

— Joris Meys 2010年

12

我喜欢Srikant的解释，并且我认为贝叶斯思想可能是解决此类问题的最佳方法。但是这是没有贝叶斯的另一种查看方式：（在R中）

dbinom(10, size = 20, prob = 0.5)/dbinom(10000, 20000, 0.5)

在我的系统上大约是31.2。换句话说，即使在两种情况下都使用公平硬币，看到20分之10的可能性比看到2万分之一的可能性高30倍以上。随着样本数量的增加，该比率无限制地增加。

这是一种似然比方法，但在我看来，这更像是贝叶斯判断的呼吁。

为什么要比例？为什么不仅仅指出那次准确抽签的可能性极低呢？

— 安迪W

5

断言特定概率在上下文之外很低的说法并不令人信服。我和我的身高一样高（无论高多少）的概率为零。而且，是的，甚至以无限的精度定义高度是有问题的，yada，yada，yada ...我的观点是，存在的漩涡总是伴随着无数次发生的无常事件！在20,000个背景中，有10,000个没有上下文，这一点也不令我感到惊讶。无论其数值概率是多少。

9

一个主观贝叶斯的说法实际上是唯一的方法（从统计的角度看），你可以去了解你的直觉，这是-确切地说-一个主题的心理调查，而不是一个统计。但是，使用贝叶斯方法辩称调查人员伪造数据显然是不公平的，因此是无效的。这样做的逻辑是完美的循环：归结为说“基于我对结果的先前信念，我发现您的结果令人难以置信，因此您一定被骗了”。这种不合逻辑的自私自利的论点显然不会在法庭或同行评审过程中站出来。

相反，我们可以从罗纳德·费舍尔（Ronald Fisher）对孟德尔（Mendel）实验的批判中获得一些建议，并进行正式的假设检验。当然，根据结果检验事后假设是无效的。但是必须重复实验才能令人信服：这是科学方法的宗旨。因此，看到一个我们认为可能是伪造的结果后，我们可以制定一个适当的假设来测试未来（或其他）结果。在这种情况下，关键区域将包含一组非常接近预期的结果。例如，在处进行测试 $\alpha$ = 5％的水平将认为在9,996到10,004之间的任何结果都是可疑的，因为（a）此集合接近我们假设的“伪造”结果，并且（b）在没有伪造的无效假设下（在法庭上证明有罪之前是无辜的！），则此范围内的结果发生的可能性只有5％（实际上是5.07426％）。此外，我们可以通过对观察到的比例与预期比例之间的平方求平方，然后在单尾检验中调用Neyman-Pearson引理，将这种看似特殊的方法放在卡方中（la Fisher）。低尾巴并将正态近似应用于二项分布。

尽管这种测试不能证明是伪造的，但可以将其用于该实验者的未来报告中，以评估其主张的可信度，而不必仅凭您的直觉就做出令人不安和无法支持的假设。 这比调用贝叶斯论证来暗示某个人可能完全无辜，而且碰巧很不幸，以至于他们获得了漂亮的实验结果，这更加公平和严格。

— ub
source

5

我认为你的直觉是有缺陷的。似乎您正在隐式地将单个“非常特殊”的结果（恰好10000个磁头）与一组许多结果（所有“非特殊”的磁头数量接近10000）进行比较。但是，“特殊”的定义是基于我们的心理学的任意选择。二进制10000000000000（十进制8192）或十六进制ABC（十进制2748）又如何呢？正如乔里斯·梅斯（Joris Meys）所评论的那样，贝叶斯的论点在任何数量的正面上都将是相同的，这意味着每个结果都是可疑的。

稍微扩展一下参数：您要检验假设（“实验者在伪造”），然后选择检验统计量（人数）。现在，该检验统计量是否适合告诉您有关您的假设的信息？在我看来，选择的检验统计量似乎不具有信息性（不是假设中指定为固定值的参数的函数）。这又回到了“作弊”是什么意思的问题。如果这意味着实验者可以随意控制硬币，则这不会反映在测试统计信息中。我认为您需要更精确地找到可量化的指标，从而使问题适合于统计检验。

— 卡拉卡尔
source

+1，但我不相信。10,000的特殊之处在于，在硬币是公平的假设下，它正好等于预期的正面数。此事实与任何数字表示的心理学或系统无关。此响应中的分析可能会为某些情况提供一些见解，例如，翻转了20,005个硬币，并记录了10,000个正面（因此有10,005个反面），并且有人的“直觉”表明发生了伪造。

— ub

我完全同意，正如您在回答中所指出的那样，这完全取决于假设的先验定义：如果您事先定义“通过伪造实验”，您的意思是“获得结果的数量为接近预期值”，那么这就是使用“人数”作为测试统计量的统计测试的基础。但是，如果没有这种先验的澄清，“伪造”和“头数的特殊值”的含义仍然模糊不清，并且不清楚它们之间有什么关系。

— caracal 2010年

4

您得出的结论将非常取决于您选择作弊概率的先验以及给定脚蹼躺着时报告的x头的先验概率。

在我看来，将最大质量放在P（报告的10000个头）上是有点反常的。除非记者天真，否则我无法想象有人报告这种伪造的数据（主要是由于您在原始帖子中提到的原因；对于大多数人来说太可疑了。）如果硬币真的不公平，并且有人要举报伪造数据，那么我认为对报告的结果更合理（且非常近似）的先验可能是整数{9900，...，10100}的离散均匀先验P（报告的X头说谎）= 1/201，并且所有其他x的P（报告的x个头）= 0。假设您认为说谎的先验概率为0.5。然后一些后验概率是：

P（报告的说谎| 9900个头）＝ P（报告的说谎| 10100个头）＝ 0.70；

P（报告的躺着| 9950个头）= P（报告的躺着| 10050个头）= 0.54;

P（报告躺着10000头）= 0.47。

公平硬币中最合理数量的举报头部将引起怀疑。只是为了证明后验概率对您的先验有多敏感，如果先验作弊的概率降低到0.10，则后验概率变为：

P（报告的说谎| 9900个头）＝ P（报告的说谎| 10100个头）＝ 0.21；

P（报告的躺着| 9950个头）= P（报告的躺着| 10050个头）= 0.11;

P（报告躺着10000头）= 0.09。

因此，我认为原始的（且评分很高的答案）可以扩大一点；在没有充分考虑先验信息的情况下，您绝对不能得出数据是伪造的结论。另外，仅凭直觉考虑一下，似乎后躺的可能性受前次躺着的可能性的影响更大，而不是受鳍状肢躺下的报道的头部的先后分布影响（除了先验的在脚蹼躺着的情况下，据报道它们在少数头上的质量，例如在我的示例中）

— 多毛的野兽
source

我认为这是一个很好的答案，但是我不同意您的第二段。我认为Srikant最初的条件概率不是违反直觉的，仅仅是因为这是一个很难回答的问题，而不是反对它的论点。我也认为，将均匀分布在9900到10100之间的概率完全没有任何意义，尽管这对于演示目的很有用。

— 安迪W 2010年

2

对于贝叶斯解释，您需要通过说谎的硬币脚蹼对报告结果进行事前概率分布，以及事前说谎的概率。当您看到一个值比随机翻转值更可能位于说谎分布下时，这使您的后说谎概率更高。

— 互联网
source