在给学生评分时,如何最好地应对慷慨程度不同的标记的影响?


13

大约600名学生在广泛的评估中获得了分数,可以认为它具有良好的信度/效度。评估得分为100分,这是计算机标记的多项选择题。

这600名学生在第二次较小的评估中也得到了分数。在第二项评估中,他们被分为11个小组,分别由11个不同的评分者组成,并且就评分的“慷慨性”或不存在评分者而言,评分者之间存在很大的差异。第二项评估也得分为100分。

没有将学生随机分配给同类群组,并且有充分的理由期望各个群组之间的技能水平有所不同。

我的任务是确保第二项作业的同类标记之间的差异不会对每个学生产生实质性的优势/劣势。

我的想法是在第二次评估中获得同类群组分数,以在第一个评估中与同类群组分数保持一致,同时保持同类群组中的个体差异。我们应该假设我有充分的理由相信,两项任务的执行情况将高度相关,但是标记的慷慨程度相差很大。

这是最好的方法吗?如果没有,那是什么?

如果回答者可以给出一些有关如何实施好的解决方案的实用技巧,例如R或SPSS或Excel,将不胜感激。


3
好问题!多项选择和论文部分的最终分数是否应具有可比性(即相同的数值范围)?
gung-恢复莫妮卡

2
当我写这个问题时,我认为这可能在您的胡同中!最终分数大致可比,但有所不同。在多重选择部的平均是〜70周围15.一个SD的另一部分中的平均值〜85周围6.一个SD
user1205901 -恢复莫妮卡

7
我会怀疑仅根据您描述的数据来解决此问题的任何努力,因为它必须基于强有力的(且不可测的)假设,即在两个单独的测试工具上同类和性能之间没有相互作用。如果可能的话,请考虑进行单独的小型实验以校准平地机的选项。
ub

9
为了更好地了解问题所在,假设(假设)(1)两种形式的评估是多项选择和作文,(2)您的大学生往往在作文问题上做得更好。当您使用数据使分数“保持一致”时,您将使年级学生的效果与年龄的影响混淆,并且通过进行调整,从而系统地使年龄较大的学生与年龄较小的学生相比处于不利地位。无论您选择的算法多么复杂,它都只能解决这个基本问题。您需要一些其他数据来解决这种混淆。
ub

3
有一点要考虑的是如何舒服你会解释的调整过程,学生或其他利益相关者:很多人可能会觉得,鉴于与标记的潜在问题,把一些精力投入到标志的正确校准不会太大的奢望,如果考试很重要。
Scortchi-恢复莫妮卡

Answers:


8

知道如何年级学生不同的是好的,但仍然不告诉你的等级补偿。为简单起见,请想象只有两个年级学生。即使我们得出结论,一年级学生的成绩比一年级学生的成绩始终高出5分,这也不能告诉您如何处理两名分别为70级学生的学生,一个学生由1年级学生,一个学生由2年级学生。我们是否说2年级学生是一个苛刻的标记,将其升至70到75,同时保持平地机1标记的70不变?还是我们假设一年级学生过分宽容,将他的学生打到65分,而保持一年级学生2的70分不变?根据11个年级的平均水平,我们是否会折中一半-扩展到您的案例?绝对成绩很重要,因此了解相对慷慨是不够的。

您的结论可能取决于您认为最终的绝对分数应该有多“客观”。一种心理模型是建议每个学生都有一个“正确”的成绩-如果他们有时间分别标记每篇论文,则由首席评估师授予该成绩-所观察到的成绩是近似的。在此模型中,观察到的成绩需要对其评分者进行补偿,以使其尽可能接近未观察到的“真实”评分。另一个模型可能是所有评分都是主观的,并且我们试图将每个观察到的评分转换为我们预测的分数,如果所有评分者都考虑了同一篇论文并达到某种折衷或平均评分,则该分数将被授予。我发现第二个模型作为解决方案不太令人信服,即使主观性的接受更为现实。在教育环境中,通常会有人承担最终的评估责任,以确保学生获得“应有的等级”,但是这种领导作用实际上已经对我们已经非常不同意的年级学生取消了责任。从现在起,我假设在那里我们旨在评估的一个“正确”等级,但这是一个有争议的主张,可能不适合您的情况。

假设学生A,学生B,学生C和学生D都在同一队列中,则“应”分别评分为75、80、85和90,但他们的慷慨的评分者始终将分数提高5分。我们观察到80、85、90和95,应该减去5,但是找到要减去的数字是有问题的。无法通过比较同类群组之间的结果来完成此操作,因为我们希望同类群组的平均能力有所不同。一种可能性是使用多项选择测试结果来预测第二次作业的正确分数,然后使用它来评估每个年级和正确分数之间的差异。但是做出此预测并非易事-如果您期望两次评估之间的均值和标准差不同,则不能仅仅假设第二个评估等级应与第一个评估等级匹配。

此外,学生在多项选择和书面评估中的相对能力也有所不同。您可以将其视为某种随机效果,构成学生的“已观察”和“真实”成绩的组成部分,但不能被其“预测”成绩捕获。如果同类群组在系统上有所不同,并且同类群组中的学生往往相似,那么我们不应该期望这种效果在每个同类群组中平均为零。如果同类群组的观察分数平均比预期分数高+5,则不可能确定这是否是由于一个慷慨的评分者,一个特别适合于书面评估而不是多项选择的队列或两者的某种组合。在极端情况下,该队列在第二次评估中甚至可能具有较低的才能,但是这远远超出了非常慷慨的评分者的补偿-反之亦然。您不能分开。这很困惑。

我也怀疑这种简单的加法模型是否适合您的数据。评分者可能不仅与位置评估者不同,而且在位置上也有所不同,而且分布范围也有所不同-尽管由于同类人群的同质性可能有所不同,所以您不能仅检查每个队列中观察到的评分范围的差异来发现这一点。而且,大部分分布都有很高的分数,非常接近理论最大值100。我预计由于压缩接近最大值而引入了非线性-一个非常慷慨的评分者可能会给A,B,C和D标记,例如85、90、94、97。这比仅减去常数更难反转。更糟糕的是,您可能会看到“剪切”的声音-极其慷慨的评分者可能将其评分为90、95、100、100。这是不可能的相反,关于C和D的相对性能的信息将不可避免地丢失。

您的评分员的行为大不相同。您确定它们仅在总体慷慨上有所区别,而不在评估的各个组成部分上有所不同吗?这可能值得检查,因为它可能会带来各种复杂性-例如,即使分级者为每个组件分配的分数是单调递增的函数,所观察到的B的评分也可能会比A差,尽管B的评分为“ 5分”。首席评估员!假设评估分为Q1(A应得分30/50,B 45/50)和Q2(A应得分45/50,B 35/50)。想象一下,平地机在Q1上非常宽松(观察到的成绩:A 40/50,B 50/50),但在Q2上却很苛刻(观察到:A 42 / 50、30 / 50),那么我们观察到A的总分是82,而A2的总分是80 B.如果您确实需要考虑组件分数,

可以说这是扩展的注释,而不是答案,从某种意义上说,它并没有在问题的原始范围内提出特定的解决方案。但是,如果您的评分员已经已经处理了大约55张纸,那么对他们来说,为了校准目的而不得不再看五到十张纸,这是否很糟糕?您已经对学生的能力有了一个很好的了解,因此可以从各个年级的范围中选择一份论文样本。然后,您可以评估是否需要在整个测试中或每个组件中补偿平地机的慷慨大方,以及是否仅通过添加/减去常数或通过诸如插值等更复杂的方法来进行补偿(例如,如果您担心线性接近100)。但插值警告:假设首席评估员将五张样本纸标记为70、75、80、85和90,而一年级生将其标记为80、88、84、93和96,因此在订购方面存在一些分歧。您可能希望将观察到的坡度从96到100映射到90到100的区间,将观察到的坡度从93到96映射到85到90的区间。但是对于低于此的标记,需要考虑一下。也许观察到的从84到93的等级应该映射到75到85的区间?另一种选择是(可能是多项式)回归,从“观察等级”获得“预测真实等级”的公式。也许观察到的从84到93的等级应该映射到75到85的区间?另一种选择是(可能是多项式)回归,以从“观察等级”获得“预测真实等级”的公式。也许观察到的从84到93的等级应该映射到75到85的区间?另一种选择是(可能是多项式)回归,以从“观察等级”获得“预测真实等级”的公式。


1
不幸的是,评估2的性质使平地机无法为校准目的而更多地看。您可以将其视为口头诗歌朗诵,一次不做录音,之后立即进行评估。仅为了校准目的而安排新的朗诵是不切实际的。要回答您的其他问题,评估2确实没有明确的子组件,因此我们无需考虑组件评分。
user1205901-恢复莫妮卡2014年

1
这不是“答案”,但在理想的情况下,我建议您改过来看,并使用示例样本(可能是故意将作业设计为在年级界限上,而不是由真正的学生设计)作为一种培训方式分级员具有相同的慷慨大方,而不是推论和补偿他们的慷慨大方。但是,如果完成评估,那么显然这不是您的解决方案。
银鱼

1
(+1)非常彻底的“没有答案”。通过将评分任务分为多个部分,通常可以大大改善主观测试的一致性-否则,一个评分员可能会更加重视节奏,而另一个则重视投影等。
Scortchi-恢复莫妮卡

显然,除了向最终决定问题的人提出可能的调整之外,我还需要对调整的利弊做出一些解释。您的回复为此提供了许多有用的材料。但是,我想知道可以使用什么标准来判断将所有内容放在一处还是进行更改是否更有利。我查看了同类群组的成绩,直觉表明标记之间的差异会产生很大的影响。直觉是不可靠的,但是我不确定在这种情况下还能做什么。
user1205901-恢复莫妮卡2014年

2
一个问题是,您是否有合理的理由相信“差异任务能力”效应较小,尤其是在同龄人的平均水平下,与“梯度大手笔”效应相比。如果是这样,您可能会尝试估计每个队列的慷慨效果-但您可能会感到困惑。此外,还有一个Catch22。对于观察到的成绩,我会非常谨慎。但是,如果建议的校正量很小,则可能是由于组间差异性任务能力的系统性差异,而不是完全基于评分者的慷慨。
银鱼

2

一个非常简单的模型:

s1,iis2,iA1,,Ap

每个队列都因其学生的实力和评分者的容易程度而有所偏差。假设这是累加效应,我们将通过以下方式退出该效果:我们将在第一次测试中减去同类群组的平均得分,然后在第二次测试中添加同类群组的平均得分。

s1

jp,iAj,s1,i=s1,i1|Aj|iAj(s1,is2,i)

s

i,si=αs1,i+(1α)s2,i

不利的一面是,如果该队列中的人在第二次考试中碰巧不巧,则该学生可能会受到处罚。但是任何统计技术都会带来这种潜在的不公平的弊端。


3
α

1
否-并非随机选择同类群组。
Scortchi-恢复莫妮卡

1
就像@whuber一直说的那样,...与该队列的任何固有趋势(由于年龄或其他原因)混杂在一起,在一种类型的测试上比另一种类型的测试做得相对更好。
Scortchi-恢复莫妮卡

2
您无法通过参加更大的群组来消除困惑!充其量来说,您可以对无法解释的价值进行更精确的估计。
ub

3
也许是合理的:但是鉴于OP可获得的信息,这是无法检验的。您答案的有效性取决于此隐含假设的真实性。更糟糕的是,它的否定(当然也是不可测的)也是非常合理的:由于同类人群是自选的,因此他们可能由在不同评估工具上以共同方式执行的人员组成,这表明差异化成功实际上可能将部分归因于同类群组,而仅部分归因于评分者之间的差异。
ub

1

你不能 至少并非没有收集其他数据。要了解原因,请阅读本主题中@whuber的众多无数评论。


0

编辑

这个答案解决的问题是找到对他们不喜欢的学生给予较少分数的年级生。

原始帖子

我认为很容易实现的方法如下:

μk,ikiyk,i

1个

假设模型

yk,i=μk,i+α+τek,iααiα

2

Giiy~k,i

yk,iμk,iα=y~k,i=Gi+σie~k,i

并对进行11个单独估计 Gσ

3

现在不寻常的观察是这样的数量

T=|y~Giσi|

注意

eT

R码

下面是R中的代码。请注意,在您的情况下,将同时给出mu和y,因此应忽略为它们分配了rnorm-numbers时生成的行。我包括它们,以便能够在没有数据的情况下评估脚本。

mu_0 <- 50; 
alpha <- 5;
tau<- 10; 
# 0 Generate data for first assignment
mu <- matrix(rnorm(605, mu_0, tau), 11) 

# 1 Generate data for second assignment and estimate alpha
G <- rnorm(11, 0)*10;
for(i in 1:11){
    y[i,] <- rnorm(55, 0, sigma) + mu[i,] + alpha + G[i];
}

alpha_hat <- mean(y-mu)
alpha_hat

# 2 Form \tilde{y} and find unsual observations
ytilde <- y - mu - alpha_hat
T <- matrix(0, 11, 55);
for(i in 1:11){
    G_hat <- mean(ytilde[i,]);
    sigma_hat <- sd(ytilde[i,]);
    T[i,] <- order(abs(ytilde[i,] - G_hat)/sigma_hat)
}
# 3 Look at grader number 2 by
T[2,]

4
您似乎还没有回答这个问题:您最终只能提出一项调查任何“异常观察结果”的建议。那如何解决问题呢?
ub

再次阅读该问题,也许我过多地关注“个人”部分。这个答案解决的问题不是找到分数给他们不喜欢的学生较少的成绩的学生。原来的问题是不可能解决的!正如已经建议的那样,学生很可能在每个队列中进行协作或紧密相关。
Hunaphu 2014年

0

改写问题:如何最好地在考试中设置两部分的分数,条件是第二部分由于委托标记的定性评估范围而面临更大的不确定性。

其中:主测试员=考试负责人委派的测试员=指派为考试第二分的人(11之1)学生=获得参加考试乐趣的人

目标包括:A)学生获得能反映其工作成绩的分数B)管理第二部分的不确定性以符合主测试员的意图

建议的方法(答案):1.主测试员随机选择一组代表性的考试样本,标记第2部分,并与第1部分建立相关性。2.利用相关性评估所有委托标记的数据(第1部分) VS#2分数)。3.如果相关性与主测试员有显着差异-重要性可以被主测试员接受-请以主测试员的身份检查考试以重新分配结果。

这种方法可确保主测试员对相关性和可接受的重要性负责。相关性可能很简单,例如部分#1与#2的分数或测试#1与#2的问题的相对分数。

主测试员还将能够基于相关性的“橡皮度”设置第2部分的结果质量。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.