使用均值总结5分评级的集中趋势的好处
正如@gung所提到的,我认为通常有很好的理由将五点项目的平均值作为中心趋势的指标。我已经在这里概述了这些原因。
释义:
- 平均值很容易计算
- 意思是直观且易于理解
- 均值是一个数字
- 其他索引通常会产生类似的对象等级排序
为什么平均值对亚马逊有利
考虑一下亚马逊报告均值的目标。他们可能旨在
- 提供对商品的直观且易于理解的评价
- 确保用户接受评级系统
- 确保人们了解评级的含义,以便他们可以适当地使用它来指导购买决策
亚马逊提供了某种四舍五入的均值,每个评分选项的频率计数以及样本数量(即评分数量)。该信息大概足以使大多数人理解与该物品有关的一般情绪以及对该等级的信心(即,具有20个等级的4.5比具有2个等级的4.5更准确;具有10 5的物品星级和一个没有评论的1星级可能仍然是一个好项目)。
您甚至可以将卑鄙视为民主选择。许多选举是根据哪位候选人在两点制范围内获得最高均值来决定的。同样,如果您认为每个提交评论的人都有投票权,那么您可以将均值视为一种均等权衡每个人投票权的形式。
规模使用上的差异真的有问题吗?
在心理学文献中,有很多等级偏差(有关综述,请参见Saal等,1980),例如中央趋势偏差,宽大处理偏差,严格性偏差。同样,某些评估者将更加武断,而某些评估者将更加可靠。有些人甚至可能会系统地撒谎,给予假阳性或假阴性评论。尝试计算项目的真实平均评分时,这会产生各种形式的错误。
但是,如果您要随机抽取总体样本,则这种偏倚将被抵消,并且如果评估者的样本量足够大,您仍将获得真实的均值。
当然,您不会在Amazon上获得随机样本,并且存在这样的风险,即您为某项商品获得的特定评估者系统地偏向于宽大或严格等等。话虽如此,我认为亚马逊的用户希望用户提交的评分来自不完善的样本。我还认为,在合理的样本量下,在许多情况下,大多数回复偏差差异很可能会开始消失。
可能取得的成就超出平均水平
在提高评级的准确性方面,我不会挑战均值的一般概念,但是我认为还有其他方法可以估算项目的真实总体均值(即,将获得的均值是要求对项目进行评分的大型代表性样本)。
- 重量评定者基于其可信度
- 使用贝叶斯评分系统,该系统将平均评分估算为所有项目的平均评分与特定项目的平均值的加权总和,并随着评分数量的增加而增加特定项目的加权
- 根据所有项目的总体评分趋势调整评估者的信息(例如,通常给出3分的某人的5分比通常给出4分的某人的分值更高)。
因此,如果评级的准确性是亚马逊的主要目标,我认为应该努力增加每件商品的评级数量,并采用上述某些策略。在创建“最佳”排名时,此类方法可能特别相关。但是,对于页面上的较低评分,很可能是样本均值更好地满足了简单性和透明性的目标。
参考文献
- 萨尔,FE,唐尼,RG和拉黑,MA(1980)。对评级进行评级:评估评级数据的心理计量质量。《心理公告》,第88卷,第413页。