考试的结果是二项式的吗?


31

这是我得到的一个简单的统计问题。我不太确定我是否理解。

X =考试中获得的分数(多项选择和正确答案是1分)。X二项式分布吗?

教授的答案是:

是的,因为只有正确或错误的答案。

我的答案:

不,因为每个问题都有不同的“成功概率” p。据我所知,二项式分布只是一系列的伯努利实验,每个实验都有一个简单的结果(成功或失败),并且具有给定的成功概率p(并且所有关于p都是“相同的”)。例如,将(普通)硬币翻转100次,这就是100次Bernoulli实验,所有实验都具有p = 0.5。但是这里的问题有不同的p对吗?


14
+1甚至更重要:除非确实是一门奇怪的考试,否则对问题的回答将高度相关。如果是个人的总分则将排除二项分布。这个问题是否有可能在“无效假设”假设下进行,在该假设中所有应试者都是独立且随机猜测所有答案的?X
whuber

2
多么矛盾的是,我至少会为此游说一下,但“答案”似乎反映出不愿意授予它的资格:)(我想你就在这里)。
AdamO '18

1
是的,谢谢:D,我认为它更像是泊松二项式分布(如果有的话)
保罗


2
我同意所有人的观点,这个问题很糟糕,但是这里有一个框架问题。如果这是一门基础课程,并且是一种简短的答案格式(以便您有机会解释您的推理),我想说最好的答案可能是“是(假设每个问题的独立性和难度相同)”;这将向教授发出信号:(1)您了解问题的局限性;(2)您并不是要成为聪明的人。
本博克

Answers:


25

我会同意你的回答。通常,如今,这类数据将使用某种项目响应理论模型进行建模。例如,如果使用Rasch模型,则二进制答案将被建模为Xni

Pr{Xni=1}=eβnδi1+eβnδi

其中可以看作个个人能力和为个问题的难度。因此,该模型使您可以发现以下事实:不同的人的能力不同,问题的难度也不同,这是IRT模型中最简单的一种。βnnδii

您的教授的答案假设所有问题的“成功”概率均相同且是独立的,因为二项式是 iid Bernoulli试验总数的分布。它忽略了上述两种依赖关系。n

正如评论中所指出的,如果您查看特定人的答案的分布情况(因此您不必关心人际间的变异性),或者查看同一项目上不同人的答案的分布情况(因此,在以下情况中就不会存在以下情况:项可变性),则分布将为泊松二项式,即非iid Bernoulli试验之和的分布。分布可以用二项式或泊松近似,仅此而已。否则,您将进行iid假设。n

即使在关于猜测的“空”假设下,也假设没有猜测模式,因此人们的猜测方式不会有所不同,项目的猜测方式也不会有所不同-因此猜测纯粹是随机的。


那讲得通!虽然我猜您可以计算问题成功概率的概率,但是“人的能力”听起来很困难:)我的另一个想法是将其建模为bernulli分布的总和?例如,假设有2个问题,因此有2个成功概率p1和p2。类似地,两个变量X1和X2计数(因此2个bernulli实验)。那么例如获得1总分的概率为P(X1 = 1)* P(X2 = 0)+ P(X1 = 0)* P(X2 = 1)= p1(1-p2)+(p1 -1)p2。听起来合理吗?
保罗

2
@保罗·伯努利的两个具有不同p的和是泊松二项式
蒂姆

4
“空”的假设基本上是球状的东西,您总是可以对母牛的球状情况进行确切的质疑。
Hong Ooi

5

该问题的答案取决于问题的框架和获取信息的时间。总的来说,我倾向于同意教授的观点,但认为他/她的回答解释不佳,教授的问题应该包括更多的信息。

如果您考虑了无限数量的潜在考试问题,并且对问题1随机抽取了一个,对问题2随机抽取了一个,依此类推。然后进入考试:

  1. 每个问题都有两个结果(对还是错)
  2. 有固定数量的试验(问题)
  3. 每个试验都可以被认为是独立的(进入第二个问题,您做的概率与进入一个问题的概率相同)p

在此框架下,满足二项式实验的假设。

,错误提出的统计问题在实践中非常普遍,而不仅仅是考试。我会毫不犹豫地向您的教授辩护。


耶,我猜也是对的。因为您给出的信息很少,所以您可能会双向争论,因此问题只是“不好的”。但是我对教授给出的答案感到非常不满意。
保罗

4
@Paul,实际上很难写出良好的统计问题。我知道我在很多场合都感到困惑。
gung-恢复莫妮卡

1
If you consider an infinite number of potential exam questions, and you draw one at random for question 1, draw one at random for question 2, etc.-我认为您应该明确假设考试题是独立于潜在问题而提出的。将它们关联起来将更现实:如果问题1很简单,则很可能给您提供了简单的考试,问题2也很容易。
阿德里安

0

如果存在n个问题,并且我可以以概率p正确回答任何一个问题,并且有足够的时间尝试回答所有问题,并且我进行了100项测试,那么我的分数将为np的正态分布。

但这不是我重复测试100次,而是100个不同的候选人进行一项测试,每个候选人都有自己的概率p。这些p的分布将是最主要的因素。您可能进行了一项测试,如果您对本学科学习得很好,则p = 0.9,否则,则p = 0.1,只有极少数人介于0.1和0.9之间。点的分布将在0.1n和0.9n处具有非常强的最大值,并且远不接近正态分布。

另一方面,在一些测试中,每个人都可以回答任何问题,但是花费的时间不同,因此有些答案会回答所有n个问题,而另一些答案会更少,因为它们用完了时间。如果我们可以假设候选者的速度是正态分布的,那么这些点将接近于正态分布。

但是许多测试都会有意地包含一些非常困难和非常简单的问题,以便我们可以区分最佳候选人(谁将回答所有问题到某种程度的难度)和最差候选人(他们只能回答非常困难)。简单的问题)。这将极大地改变点的分布。


2

2
@Tim尽管不必要地依赖于正态分布以及进行100次测试的奥秘,但该答案在试图证明特定案例如何导致明显的非二项式分布方面还是有好处的。这样,如果解决这些技术问题,则可能对答案做出宝贵的贡献。
whuber

0

ñ n

n

  • 12
  • 独立的。许多考试会根据先前问题的答案提出问题。谁能肯定地说这个问题不会在考试中发生?还有其他因素可以使考试题的答案彼此之间不独立,但是我认为这是最直观的答案。

我在统计课程中看到过一些将考试问题建模为二项式的问题,但它们的框架大致如下:

什么样的概率分布可以模拟在多项选择题考试中正确回答的问题数量,其中每个问题都有四个选择,参加考试的学生会随机猜测每个答案?

当然,在这种情况下,它将表示为的二项式分布p=14


您的事实没有任何关系,但是逻辑是不正确的:它不足以证明某些假设可能不成立,因为(在逻辑上)在任何情况下分布仍可能是二项式的。您还需要证明这些假设可能以导致分数分布肯定不是二项式的方式失败。
whuber
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.