12名老师在教600名学生。这些老师教的12个群组的规模从40至90名学生不等,我们预计这两个群组之间会有系统的差异,因为研究生被分配给特定群组的比例不成比例,并且以往的经验表明,研究生的平均得分大大高于本科生。
老师对他们队列中的所有论文进行了评分,并给他们满分100分。
每位教师还查看了其他三位教师随机选择的一篇论文,并在100分中给了满分。每位教师的三篇论文都被另一位老师标记。因此,已经用这种方式对36篇不同的论文进行了标记,我称之为校准数据。
我还可以看到每个队列中有多少名研究生。
我的问题是:
A)如何使用此校准数据来调整原始标记,以使其更公平?特别是,我想尽可能地消除过于慷慨/多余的制造商的影响。
B)我的校准数据是否合适?在本课程中获得的校准数据的有限的36个数据点中,我别无选择,并且在本学期没有选择的余地。但是,如果这种情况再次发生,我也许能够收集更多的校准数据,或者收集不同类型的校准数据。
这个问题与我问过的一个普遍问题有关: 我如何在对学生论文进行评分时最好地应对慷慨程度不同的标记的影响?。但是,这是另一回事,我不确定阅读该问题作为当前背景的有用之处,因为主要问题是我没有校准数据。
lm(score ~ gradStudent + ... + teacherID
应该执行类似的操作。