这有两个部分:(a)选择一个图表(实验设计)以确定学生将在同伴评分过程中评估的几对论文,以及(b)根据学生的同伴成绩对所有论文进行排名,以确定哪个老师应该排名。我将为每种方法建议一些方法。
选择图
问题陈述。 第一步是生成图形。换句话说,您需要在同伴评分练习中选择要显示给学生的论文对。
建议的解决方案。对于此任务,我建议您生成一个随机图,从所有3个规则(简单)图的集合中随机选择。G
理由和细节。 众所周知,随机正则图是一个很好的扩展器。实际上,正则图具有渐近最优展开因子。另外,由于图形是随机的,因此应该消除倾斜渐变的风险。通过随机选择一个均匀的图形,可以确保您的学习方法对所有学生都公平。我怀疑统一随机的3个正则图将是最适合您的目的。d
这就提出了一个问题:我们如何在个顶点上随机地均匀地选择一个3正则(简单)图?ñ
幸运的是,有已知的算法可以做到这一点。基本上,您可以执行以下操作:
创建点。您可以将其视为n个顶点中每个顶点的3个副本。在这3 个n点上随机均匀地生成随机完美匹配。(换句话说,重复以下过程,直到将所有3 n个点都配对为止:选择任何未配对的点,并将其与从未配对的点集中随机选择的另一个点配对。)3 nñ3 n3 n
对于匹配所匹配的每两个点,在相应的顶点之间绘制一条边线(它们是它们的副本)。这为您提供了个顶点的图形。ñ
接下来,测试结果图是否简单(即,它没有自环且没有重复的边)。如果不简单,则丢弃该图形,然后返回到步骤1。输出此图。
众所周知,此过程在3个正则(简单)图的集合上生成均匀分布。同样,众所周知,在第3步中,您具有接受结果图的恒定概率,因此,平均而言,该算法将进行试验-这样效率很高(例如,多项式运行时间)。O (1 )
我已经看到这种方法归功于Bollobas,Bender和Canfield。该方法在Wikipedia上也进行了简要总结。您还可以在此博客文章中找到讨论。
从技术上讲,这要求数字为偶数(否则,在n个顶点上没有3正则图)。但是,这很容易处理。例如,如果n为奇数,则可以随机选择一篇论文,将其放在一边,在其余论文中生成一个随机的3正则图,然后再将3条从预留的论文中添加的边添加到3条随机选择的其他论文中。(这意味着将有3篇文章实际被评分4次,但这不会造成任何伤害。)ñññ
对所有论文进行排名
问题陈述。 好的,现在您有了一张图表,并向学生展示了这些对论文(如图中的边缘所示),以便他们在同伴评分练习中进行评分。您将获得每篇论文比较的结果。现在,您的任务是推断所有论文的线性排名,以帮助您确定要由老师评估的论文。
解。我建议您使用Bradley-Terry模型。这是一种数学方法,可以完全解决此问题。它是根据某些运动员对之间的比赛结果而设计的,用于对某些运动中的运动员进行排名。假设每个球员都有(未知)力量,可以将其量化为实数,而爱丽丝击败鲍勃的概率则取决于他们实力差异的某种平滑函数。然后,根据成对的赢/输记录,它估计每个玩家的实力。
这对您来说是完美的。您可以将每篇文章视为一个参与者。两篇文章之间的每个比较(在同级评分过程中)就像它们之间匹配的结果。Bradley-Terry模型将使您能够获取所有这些数据,并推断每篇文章的强度,其中较高的强度对应更好的论文。现在,您可以利用这些优势对所有论文进行排名。
一世Ĵ
给定您拥有的数据,还有其他方法可以推断所有论文的等级或排名。例如,Elo方法是另一种方法。在回答另一个问题时,我总结了其中的一些内容;阅读该答案以获取更多详细信息。
另一则评论:Bradley-Terry模型假设两个玩家之间的每次比较结果都是胜利或失败(即二进制结果)。但是,听起来您实际上将拥有更详细的数据:您的滑块会粗略地估计同级学生对一篇论文的评价比另一篇更好。最简单的方法是将每个滑块映射到二进制结果。但是,如果您确实需要,可以通过使用更复杂的分析来使用所有数据。Bradley-Terry模型涉及进行逻辑回归。如果您概括地说使用有序logit,我敢打赌,您可以利用每个滑块提供的额外信息,因为滑块的结果不是二进制的,而是几种可能性之一。
有效利用老师
您建议让老师手动对所有论文的最高X%和最低X%进行评分(使用根据同级评分结果推断出的排名)。这可能有效,但是我怀疑这不是老师有限时间的最有效利用。相反,我想提出一种替代方法。
我建议您让老师为论文的一个子集评分,并仔细选择该子集,以尝试为所有未由老师评分的论文提供最佳的校准。为此,如果您选择覆盖可能答案范围的论文样本,那么我认为这可能会有所帮助(因此,对于每篇论文,都有一些教师评分的论文离它不太远)。为此,我可以想到两种可以考虑尝试的方法:
ñķķķ
ķd(e一世,ËĴ)Ë一世ËĴ小号é 小号ķ ë 1,ë 2,... ,Ë ķ ë 我+ 1 d (Ë ,{ ë 1,ë 2,... ,Ë 我 } )Ê Ë ∉ { ë 1,Ëd(ê ,小号)= 分钟Ë′∈ 小号d(ē ,é′)是到最近的文章的距离。最远点优先算法计算论文的列表,即,如下所示:是最大化(在所有诸如文章)。这种算法生成的篇文章彼此尽可能不同-这意味着其余的每篇文章与至少篇文章非常相似。因此,让老师对评分是合理的Ë小号ķË1个,Ë2,… ,eķË我+ 1d(e ,{ e1个,Ë2,… ,e一世} )Ëk k kË ∉ { É1个,Ë2,… ,e一世}ķķķ FPF算法选择的论文。
我怀疑这两种方法都可能比让老师对论文的成绩最高的X%和最低的X%评分更准确-因为最好和最差的论文可能无法代表中间论文的质量。
在这两种方法中,您都可以使用更复杂的距离函数,该函数不仅考虑基于同级的强度估计,还考虑从文章中得出的其他因素。最简单的距离函数将仅考虑Terry-Bradley模型的结果,即,其中是由Terry-Bradley模型根据同级评分的结果估算的论文。但是,您可以做一些更复杂的事情。例如,您可以计算论文和之间的标准化Levenshtein编辑距离小号(ë )ë ë 1 ë 2 ķd(e1个,Ë2)= (s (e1个)- 小号(Ë2))2小号(è)ËË1个Ë2(将它们作为文本字符串进行处理,计算编辑距离,然后除以两者中较大的一个的长度),并将其用作距离函数中的另一个因素。您还可以对文章中的单词使用词袋模型来计算特征向量,并将这些特征向量之间的L2距离(特征使用tf-idf归一化)作为距离函数中的另一个因素。您可能使用的距离函数是强度差异的加权平均值(基于Terry-Bradley的估计),标准化的编辑距离以及其他可能有用的函数。这种更复杂的距离函数可以帮助做的帮助聚类算法选择哪个是最好的一个更好的工作文章有老师档次。ķ