同行评分设计-选择图表以获取准确的排名/评分

背景。我正在编写一些半自动分级的代码，并使用对等分级作为分级过程的一部分。一次给学生提供成对的论文，并且学生可以选择一个滑块，选择哪个更好，哪个更好。例如，滑块可能看起来像这样：

A---X-B

根据同级评分的结果，对论文进行排名，然后由老师对最高X％和最低X％进行评分，并根据此结果自动计算所有论文的分数。我已经想出了进行排名/评分过程的方法。该部分效果很好。

我的问题。我应该如何选择要给学生的论文对？

模拟表明，我们需要对一篇论文进行至少3次同等评分，以获得准确的排名。因此，每篇论文应至少出现在为同行评分而提出的三对中。

我们可以将其视为图问题。将论文视为节点。每条边代表在同级评分过程中呈现的一对论文。上面的准确性结果表明，每个节点（或大多数节点）的度数应至少为3。我应该使用哪种图形？我应该如何生成要在同行评等中使用的图表？

挑战之一是，如果图中有聚类，这将使同级评分不正确。例如，我们不想让高质量的论文相对于高质量的论文进行同行评等，因为那样会使歪曲同行评议的结果。

你会推荐什么？

我认为可以使用如下所示的无向图来建模此问题：

首先选择度数最小的节点，然后将其与下一个最小的节点链接
继续，直到您的平均学位至少为3
最大化节点连接
减少派系数量

这是一个好方法吗？如果不是，您会推荐什么呢？

algorithms graphs modelling

— 伊斯梅尔
source

对于扩展器，这可能是一个有趣的应用程序。您是否尝试过在扩展器中安排作业？

— Shaull

您对边缘的想法似乎正确。边缘仅表示发生了比较，而不是比较的结果。因此，仅存在/不存在边缘并不能编码很多信息，而只能进行比较。处理该问题的自然方法涉及加权/定向边缘，其方向例如朝向偏爱的边缘...这似乎类似于流动问题...您说“滑块”，它是多值的吗？或二进制？“滑块”在我看来像是一个评价，具有多重价值。

— vzn

您能否澄清您的问题是什么？您是否在询问如何选择图表？还是在询问，给定每个边的图表和一组评分，如何对所有论文进行排名？前者属于“实验设计”的一般类别（我的回答是针对它的）。后者在“数据分析”的一般类别下（我的回答和vzn的回答都为此提供了一些有用的资源）。

— DW

实际上，我们已经确定了排名和得分，但是将尝试以下方法。

— ismail 2013年

在对类似问题的某些分析中，“排名”和“得分”是可以互换的。它现在通过进一步的审查和编辑出现，在您的系统中，“排名”是基于比较数据的基于计算机的排名估计，而“评分”是基于人为的关于论文质量的主观决定（也通常称为“分级”）。＆youre主要有兴趣分发比较对...

— vzn

Answers:

这有两个部分：（a）选择一个图表（实验设计）以确定学生将在同伴评分过程中评估的几对论文，以及（b）根据学生的同伴成绩对所有论文进行排名，以确定哪个老师应该排名。我将为每种方法建议一些方法。

选择图

问题陈述。 第一步是生成图形。换句话说，您需要在同伴评分练习中选择要显示给学生的论文对。

建议的解决方案。对于此任务，我建议您生成一个随机图，从所有3个规则（简单）图的集合中随机选择。 $G$

理由和细节。 众所周知，随机正则图是一个很好的扩展器。实际上，正则图具有渐近最优展开因子。另外，由于图形是随机的，因此应该消除倾斜渐变的风险。通过随机选择一个均匀的图形，可以确保您的学习方法对所有学生都公平。我怀疑统一随机的3个正则图将是最适合您的目的。 $d$

这就提出了一个问题：我们如何在个顶点上随机地均匀地选择一个3正则（简单）图？ $n$

幸运的是，有已知的算法可以做到这一点。基本上，您可以执行以下操作：

创建点。您可以将其视为个顶点中每个顶点的3个副本。在这点上随机均匀地生成随机完美匹配。（换句话说，重复以下过程，直到将所有个点都配对为止：选择任何未配对的点，并将其与从未配对的点集中随机选择的另一个点配对。） $3n$ $n$ $3n$ $3n$
对于匹配所匹配的每两个点，在相应的顶点之间绘制一条边线（它们是它们的副本）。这为您提供了个顶点的图形。 $n$
接下来，测试结果图是否简单（即，它没有自环且没有重复的边）。如果不简单，则丢弃该图形，然后返回到步骤1。输出此图。

众所周知，此过程在3个正则（简单）图的集合上生成均匀分布。同样，众所周知，在第3步中，您具有接受结果图的恒定概率，因此，平均而言，该算法将进行试验-这样效率很高（例如，多项式运行时间）。 $O(1)$

我已经看到这种方法归功于Bollobas，Bender和Canfield。该方法在Wikipedia上也进行了简要总结。您还可以在此博客文章中找到讨论。

从技术上讲，这要求数字为偶数（否则，在个顶点上没有3正则图）。但是，这很容易处理。例如，如果为奇数，则可以随机选择一篇论文，将其放在一边，在其余论文中生成一个随机的3正则图，然后再将3条从预留的论文中添加的边添加到3条随机选择的其他论文中。（这意味着将有3篇文章实际被评分4次，但这不会造成任何伤害。） $n$ $n$ $n$

对所有论文进行排名

问题陈述。 好的，现在您有了一张图表，并向学生展示了这些对论文（如图中的边缘所示），以便他们在同伴评分练习中进行评分。您将获得每篇论文比较的结果。现在，您的任务是推断所有论文的线性排名，以帮助您确定要由老师评估的论文。

解。我建议您使用Bradley-Terry模型。这是一种数学方法，可以完全解决此问题。它是根据某些运动员对之间的比赛结果而设计的，用于对某些运动中的运动员进行排名。假设每个球员都有（未知）力量，可以将其量化为实数，而爱丽丝击败鲍勃的概率则取决于他们实力差异的某种平滑函数。然后，根据成对的赢/输记录，它估计每个玩家的实力。

这对您来说是完美的。您可以将每篇文章视为一个参与者。两篇文章之间的每个比较（在同级评分过程中）就像它们之间匹配的结果。Bradley-Terry模型将使您能够获取所有这些数据，并推断每篇文章的强度，其中较高的强度对应更好的论文。现在，您可以利用这些优势对所有论文进行排名。

$i$ $j$

给定您拥有的数据，还有其他方法可以推断所有论文的等级或排名。例如，Elo方法是另一种方法。在回答另一个问题时，我总结了其中的一些内容；阅读该答案以获取更多详细信息。

另一则评论：Bradley-Terry模型假设两个玩家之间的每次比较结果都是胜利或失败（即二进制结果）。但是，听起来您实际上将拥有更详细的数据：您的滑块会粗略地估计同级学生对一篇论文的评价比另一篇更好。最简单的方法是将每个滑块映射到二进制结果。但是，如果您确实需要，可以通过使用更复杂的分析来使用所有数据。Bradley-Terry模型涉及进行逻辑回归。如果您概括地说使用有序logit，我敢打赌，您可以利用每个滑块提供的额外信息，因为滑块的结果不是二进制的，而是几种可能性之一。

有效利用老师

您建议让老师手动对所有论文的最高X％和最低X％进行评分（使用根据同级评分结果推断出的排名）。这可能有效，但是我怀疑这不是老师有限时间的最有效利用。相反，我想提出一种替代方法。

我建议您让老师为论文的一个子集评分，并仔细选择该子集，以尝试为所有未由老师评分的论文提供最佳的校准。为此，如果您选择覆盖可能答案范围的论文样本，那么我认为这可能会有所帮助（因此，对于每篇论文，都有一些教师评分的论文离它不太远）。为此，我可以想到两种可以考虑尝试的方法：

$n$ $k$ $k$ $k$
$k$ $d(e_i,e_j)$ $e_i$ $e_j$ $S$ $d(e,S) = \min_{e' \in S} d(e,e')$ 是到最近的文章的距离。最远点优先算法计算论文的列表，即，如下所示：是最大化（在所有诸如文章）。这种算法生成的篇文章彼此尽可能不同-这意味着其余的每篇文章与至少篇文章非常相似。因此，让老师对评分是合理的 $e$ $S$ $k$ $e_1,e_2,\dots,e_k$ $e_{i+1}$ $d(e,\{e_1,e_2,\dots,e_i\})$ $e$ $e \notin \{e_1,e_2,\dots,e_i\}$ $k$ $k$ $k$ FPF算法选择的论文。

我怀疑这两种方法都可能比让老师对论文的成绩最高的X％和最低的X％评分更准确-因为最好和最差的论文可能无法代表中间论文的质量。

在这两种方法中，您都可以使用更复杂的距离函数，该函数不仅考虑基于同级的强度估计，还考虑从文章中得出的其他因素。最简单的距离函数将仅考虑Terry-Bradley模型的结果，即，其中是由Terry-Bradley模型根据同级评分的结果估算的论文。但是，您可以做一些更复杂的事情。例如，您可以计算论文和之间的标准化Levenshtein编辑距离 $d(e_1,e_2) = (s(e_1)-s(e_2))^2$ $s(e)$ $e$ $e_1$ $e_2$ （将它们作为文本字符串进行处理，计算编辑距离，然后除以两者中较大的一个的长度），并将其用作距离函数中的另一个因素。您还可以对文章中的单词使用词袋模型来计算特征向量，并将这些特征向量之间的L2距离（特征使用tf-idf归一化）作为距离函数中的另一个因素。您可能使用的距离函数是强度差异的加权平均值（基于Terry-Bradley的估计），标准化的编辑距离以及其他可能有用的函数。这种更复杂的距离函数可以帮助做的帮助聚类算法选择哪个是最好的一个更好的工作文章有老师档次。 $k$

— DW
source

相对于原始问题陈述而言，很难遵循。您是否正在解决比较分布均匀的问题？

— vzn

@vzn，我已经编辑了答案以弄清楚。问题似乎是在询问如何选择图表，即在同伴评分过程中要让学生比较哪些论文。我的答案的前半部分为该问题提供了解决方案。我的答案的第二部分描述了如何使用同级评分的结果对所有论文进行排名，以帮助老师选择要对哪些论文进行评分。

— DW

根据您对输入和输出的不精确描述以及要计算的内容得出一些想法（也许您可以考虑一下修改您的问题）。

显然，这基本上是Facebook成立（电影“社交网络”中所描绘的）所引发的“热门与否”“ facemash”问题。在原始的“游戏”中，用户有两张图片，然后在更具吸引力的女性中进行选择。在您的系统中，选择是在两篇文章之间进行选择，其中一篇更好。

从近乎民俗的角度来看，显然可以使用国际象棋比赛计分系统中使用的Elo排序算法来计算收敛解（在这种情况下，基本上估计与所表达的有针对性的偏好图一致的论文分数），但还没有仔细观察描述/撰写。

另一种选择是使用Pagerank。根据定向链接图计算页面的估计影响。对论文的偏好类似于链接到网页。

这个问题似乎也与引文分析相似，在引文分析中，科学论文引用了其他论文，并对论文的影响进行了估算。[但是请注意，Pagerank也是该领域的领先算法。]

[1] 为什么将Elo排名用于facemash算法？堆栈溢出

[2] Elo排名系统，维基百科

[3] Pagerank，维基百科

[4] 引文分析，维基百科

— z
source

如何应用Elo的草图：游戏比赛就像作文比较。论文有分数，得分较高的论文应赢得更多比赛。该算法会计算与所有匹配项最一致的分数。

— vzn

请注意，引文的想法倾向于假定所有比较在所有论文中都比较均匀地分布，否则，如果一篇论文进行的比较较多，则可能会增加其相对受欢迎度。因此，这种方法的一部分还可以平衡比较，这似乎是您所指的，并且类似于尝试在所有玩家之间分配比赛的问题……

— vzn