权衡评级系统以支持更多人评价较高的项目,而不是更少人评价较高的项目?


9

在此先感谢您与我保持联系,我不是任何统计学家,也不知道如何描述我的想象,因此Google在这里没有帮助我...

我正在使用一个Web应用程序中包含一个评分系统。每个用户可以对每个项目准确地评分一次。

我正在想象一个带有4个值的标度:“非常不喜欢”,“不喜欢”,“喜欢”和“非常喜欢”,并且我计划分别分配这些值-5,-2,+ 2和+5 。

现在,如果每个项目的评分都相同,那么我将对这种评分系统感到满意,因为它可以区分出最喜欢和最不喜欢的项目。但是,这些项目的评级不会相同,并且不同照片上的投票数之间的差异可能会非常明显。

在那种情况下,比较两个项目的累积得分意味着具有很多中等评级的旧项目的得分将比票数更少的特殊新项目的得分高得多。

因此,我想到的第一件事就是平均得分...但是现在,如果一个项目的评分只有“ +5”,则其平均得分要高于获得99“ +5”评分的项目和1个“ +2”等级。直观地讲,这并不是商品受欢迎程度的准确表示。

我想这个问题很普遍,你们不需要我用更多示例来困扰它,所以我将在这一点上停下来,并在需要时详细说明。

我的问题是:

  1. 这种问题叫什么,解决这个问题的技术是否有术语?我想知道这一点,以便我可以继续阅读。
  2. 如果您碰巧知道关于该主题的任何非专业资源,我将非常感谢您提供的链接。
  3. 最后,对于任何有关如何有效收集和分析此类数据的建议,我将不胜感激。

Answers:


14

解决此问题的一种方法是在每个类别中使用比例,而不要求您为每个类别输入数字(您可以将其保留为80%的“强烈喜欢”程度)。但是,比例确实受到少数评级问题的困扰。在您的示例中可以看到,评级为1 +5的照片比具有99 +5和1 +2的照片获得更高的平均得分(和比例)。这与我的直觉不太吻合(我怀疑大多数人)。

解决这一小样本问题的一种方法是使用称为“ 拉普拉斯继承规则 ”的贝叶斯技术(搜索此术语可能有用)。它仅涉及在计算概率之前向每个类别添加1个“观察值”。如果要对数值取平均值,我建议使用加权平均值,其中的权重是通过继承规则计算的概率。

对于数学形式,让 ñsdñdññs 分别表示“非常不喜欢”,“不喜欢”,“喜欢”和“非常喜欢”的响应次数(在两个示例中, ñs=1个ñsd=ñd=ñ=0ñs=99ñ=1个ñsd=ñd=0)。然后,您可以像

P[R“强烈喜欢”=ñs+1个ñsd+ñd+ñ+ñs+4

对于您给出的两个示例,它们给出的概率是“强烈喜欢” 1个+1个1个+0+0+0+4=2599+1个99+1个+0+0+4=100104 我认为这与“常识”更为吻合。删除添加的常量可以1个1个99100 这使得第一个结果似乎比预期的要高(至少对我而言)。

各个分数仅由加权平均给出,我在下面将其写为:

小号CØ[RË=5ñs+1个ñsd+ñd+ñ+ñs+4+2ñ+1个ñsd+ñd+ñ+ñs+4-2ñd+1个ñsd+ñd+ñ+ñs+4-5ñsd+1个ñsd+ñd+ñ+ñs+4

或更简洁地说

小号CØ[RË=5ñs+2ñ-2ñd-5ñsdñsd+ñd+ñ+ñs+4

这给出了两个例子的分数 55=1个4971044.8。我认为这表明了两种情况之间的适当区别。

这可能有点“误解”,所以请告诉我是否需要更多说明。


对我来说这有点“ th”,最初我不理解该公式,但是我仔细阅读了大约三遍,然后单击!这正是我所要的,即使对于根本不是数学家或统计学家的人,您的解释也很清楚。非常感谢你!
安德鲁

2
非常好的非技术性答案,也是我自己不会想到的一种方法。我只补充说,可以为每个类别添加任意数量的假“观察”,而不是1,包括非整数。这使您可以灵活地决定要多少票数将项目的分数“缩小”为零。而且,如果您碰巧想要此方法的技术描述,可以说您正在使用对称Dirichlet先验对多项式分布的数据进行贝叶斯分析。
一站式

1
尽管它们看起来像是“假”观测值,但当它为+1时它们确实具有明确定义的含义(而不是+2或更高的值,它实际上是“假”数字或来自先前数据收集的数字)。它基本上描述了一种知识状态,即可以观察任何数据之前对每个类别进行投票。这恰好是(N-1)单形上的平坦先验。
概率

对于将来找到这篇文章的人,还有一个观察结果:在我的模型中执行此操作时,我得到了最终分数并将其乘以20,这给出了-100到100的范围(从最差到最好)(尽管我从技术上讲假设是是您永远无法达到的极限,但是您明白了。)这使我应用程序中用户的输出非常直观!
安德鲁

@probabilityislogic:对于Dirichlet先验,肯定有任何严格的正参数描述所有概率都严格在0到1之间吗?:和这种说法建议将它们设置为2 / m,其中m是类别的数量,而不是1 en.wikipedia.org/wiki/...
一站式

2

我会采用图形化方法。x轴可以是平均等级,y可以是等级数量。我过去经常通过体育统计来比较年轻现象和老牌明星的贡献。越靠近右上角,越接近理想位置。当然,确定“最佳”项目仍然是一个主观决定,但这将提供一些结构。

如果要针对另一个变量绘制平均评级,则可以在泡沫图中(例如在XL或SAS中)使用泡沫大小将评级数设置为第三个变量。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.