如何公平地确定区域科学博览会的获奖者？

我需要帮助，以找出正确的方法来计算我们的Science Fair获奖者。我不希望我对统计和数学的无知会妨碍孩子获得获胜的机会。（大量的奖学金和晋升福利at可危）。在此先感谢您的帮助。

首先介绍一下我们如何进行设置：

我们的博览会通常有大约600个学生项目。这些项目由单个学生或一组学生完成并介绍。一个团队可以包含2个或3个孩子。

学生分为两个部分：小学（6-8年级）和中学（9-12年级）。每个部门都有不同的类别：小学项目9个类别，中学项目17个类别。

每个部门的每个类别分别获得第一，第二和第三名的奖项。超过第三名的位置也会获得荣誉奖。

对于每个项目，我们分配4至6名法官。我们根据法官的资格，他们的类别偏好和他们过去的评审经验来进行分配。（经验丰富的人员被分配到高级部门的项目中）。

评委如何为项目评分：

对于每个项目，都有5个分配了点的标准。每个标准可以在1到20分之间奖励。一般标准是：

总体目标+假设+资源使用（1..20）
设计+程序（1..20）
数据收集+结果（1..20）
讨论+结论（1..20）
面试（1..20）

对于团队项目，第六个标准被评估为“团队扣除”，在该标准中，法官可以为未参加或未出席的队友扣分（最多15分）。

团队扣除（0 ..- 15）

因此，法官可以为每个项目打5至100分。如果该项目是团队项目，则得分可以降低15分。

原始数据：

在几个小时的过程中，我们从法官那里收集了3600个分数。这些分数被输入到数据库中，我可以在其中进行各种排序，平均，标准差计算等。我只是不知道该如何处理这些原始分数。现在，我正在为每个项目做一个简单的平均，但是我担心我没有针对法官的偏见，团队扣除或其他我没有考虑的其他因素进行调整。

所需结果：

最后，我想对分数进行处理，以便可以为每个类别分别授予第一，第二和第三名，然后为随后的各个地方授予荣誉奖。我想相信位置计算正确，获胜的孩子应该得到认可（和奖金）。

非常感谢您阅读我的冗长问题并为您解决这个问题提供了帮助。我很乐意回答您可能遇到的任何后续问题。

data-transformation standard-deviation rating

— 迈克·戴维
source

有趣而棘手的问题，您已经将重点放在了一些关键问题上。总共有多少名法官，那么每个法官将评判多少个项目？（对范围以及平均值有一些了解会很好）。另外，这26个类别是否互斥？我有一个很好的预感，最好的答案可能是对每个项目进行平均，但是可能会为法官做出调整。我会感兴趣地阅读答案！

— 彼得·埃利斯

感谢您最初的关注。我已将更多信息添加到下面的答案中。如果您有任何见解，非常感谢您的帮助。

— Mike Davie 2012年

我认为“答案”可能对我的想法而言过于宽泛。我喜欢探索性数据分析，并且我是框线图的忠实拥护者，因此这将在我的评论中反映出来。

嗨，那是很多分数。:)听起来您在600个项目中至少有78个项目名列前三（[9+17]x3），并获得荣誉奖。通常，我会说从每个类别的顶部和中间进行抽样，以进行评分审核，但是由于您的人数众多，因此这对您而言非常繁琐-只是您要确定评分。:)

我希望您可以使用一个统计信息包，因为下面有一些建议可以使用。

您是否查看了每个类别中分数的分布？得分最高的3个，5个或8个项目是否非常接近？这表明项目的质量非常相似，无论您做什么，都可能至少会感觉到最终分数的随意性。

我不确定每个裁判的分数是多少。假设他们得分合理（例如，> 10，虽然越高越好），但是对于每个法官，您可以计算出他们评估的每个项目的总得分的中位数和四分位数范围（您有很多属性，可能没有值得逐一查看）。是否有任何法官给出的分数特别高或特别低？是否有任何评委似乎在中间得分始终如一，所以他们可能给出10分，这可以通过相对较小的四分位数范围和总得分中位数（可能值范围的中间值）来表明。

对于团队项目，您可以将基于总分的排名与应用团队扣除后的排名进行比较。团队扣除是否会影响本应排在前三名的团队？

这些只是帮助您入门的建议。我认为按照这些思路对数据进行可视化将为您提供一些很好的指标，以说明展示位置是否公平。

更新：这是一个有趣的难题。听起来每个法官都没有为我们评估足够的项目，因此我们无法为每个法官得出一个加权因子（考虑到法官的偏见），因为我们没有足够的数据来衡量内部-评委的可靠性，对于在相同项目上得分的评委，重叠的地方还不够。您是否查看了排名靠前的几个项目的得分范围-它们与得分较低的项目（自然界线）之间是否存在明显的区别，排名靠前的项目的得分有多接近？

出于好奇，法官们给了评分标准，所以他们在如何给每个标准打分方面几乎没有灵活性（例如，给一个零假设提供1分，给一个或多个替代假设给予1分...）或他们只是知道可以奖励的积分总数，剩下的留给他们了吗？如果他们有计分指南，我会更有信心分数是正确的。

— 蜜雪儿
source

我也对分数的分布感到好奇-显然有一些“最高分数”，还是有一个团块，而谁排在榜首呢，在过程上有点...不透明。就像大学录取过程中一样，这些孩子以后会经历:)

— Fomite

感谢Michelle的想法。非常感谢您抽出宝贵的时间。要回答您的问题，评委只能评判少量项目。我们对每个部门都有最低要求：小学4次，中学5次或6次（高中生5次，老年人6次）。

— Mike Davie 2012年

我需要澄清以上内容。最低分数是每个项目的分数，而不是评委在展览会中为项目评分的次数。一般的评审会在展览会期间评判8到15个项目之间的任何地方。这个数字取决于法官的可用性，他们的资格，愿意帮助等

— 迈克·戴维

好答案米歇尔。我的一些想法：1）绝对给法官一些规矩，以鼓励采用共同标准；2）尽可能尝试每个项目拥有相同数量的法官（否则，法官人数较少的项目会有较大的差异，因此有更多机会获得最高职位或最低职位）3）我认为您必须只需使用平均值即可，但是如果您具有专业知识和软件，则可以将混合效果模型与随机效果判断一起拟合，它会判断结果是否有所变化。如果可以怎么办？可能仍会使用平均值。...–

— 彼得·埃利斯

再次感谢大家的投入。让我犹豫了一下之后，我决定看看在国际水平上如何对项目进行评分（比我们的博览会高出一个竞赛步骤）。该国际博览会称为ISEF。我们每年都会派遣前5名学生到ISEF。

— Mike Davie 2012年