亚马逊的“平均评分”会误导吗?


49

如果我理解正确,则图书评分为1-5的等级就是李克特分数。也就是说,对我来说3不一定代表其他人3。这是有序规模的IMO。一个不应该真正地平均序数标度,但绝对可以采用众数,中位数和百分位数。

那么,既然大部分人口比上述统计数据都了解经济手段,那么弯曲规则就可以吗?尽管研究界强烈谴责采用基于李克特量表的数据的平均值,但与大众一起这样做(实际上)是可以的吗?在这种情况下,以平均值为起点是否会产生误导?

像亚马逊这样的公司似乎不太可能迷失于基本统计数据,但是如果不是这样的话,我在这里会缺少什么呢?我们是否可以说序数标度是序数的便利近似值以证明采用均值是合理的?有什么理由?


3
如果给您的3与其他人的3不相同,那么您甚至没有规模:您拥有无与伦比的度量标准的集合,可以做些有意义的总结。产生刻度序数的原因是(a)可以比较值,所以您的3和我的3表示相同的东西,但是(b)值的数字差异除其符号外无意义,因此(例如)两个3表示,a 4和2或5和1可以按任意顺序放置尽管数字上每对评分的均值和中位数相同。
ub

1
@whuber-但不是两个人可能不会以1-9的比例就数字得出相同的看法吗?除非他们有预先定义的比例,否则对我来说6可能真的不是别人的6 ?
博士

1
我最近在亚马逊上阅读了一篇评论,其中说:“出色的产品不能挑剔。我永远不会给任何5星,所以给了4颗星”。如果这不偏离均值,那么我不知道那
Matt Wilko

2
@Wilko您在谈论的是意见分歧,而不是规模分歧。即使对刻度进行了非常仔细的校准(例如,对体操或花样滑冰的评分(例如)或对河流急流的难度进行评级的国际比例),即使培训了专家以使用该比例,也仍然会有变化。通常不将其解释为规模主观的证据:将其解释为法官之间的差异。
ub

1
抱歉,这不是真正的答案,但是很遗憾,我找不到“评论”功能。最近,我开始写有关客户评论关键要素的硕士论文。考虑到以下情况,我也开始怀疑亚马逊五星级评级系统的重要性。- 不信任的评论数量- 评分偏差和J曲线的影响(buildingreputation.com/writings/2009
derPio 2012年

Answers:


42

使用均值总结5分评级的集中趋势的好处

正如@gung所提到的,我认为通常有很好的理由将五点项目的平均值作为中心趋势的指标。我已经在这里概述了这些原因

释义:

  1. 平均值很容易计算
  2. 意思是直观且易于理解
  3. 均值是一个数字
  4. 其他索引通常会产生类似的对象等级排序

为什么平均值对亚马逊有利

考虑一下亚马逊报告均值的目标。他们可能旨在

  • 提供对商品的直观且易于理解的评价
  • 确保用户接受评级系统
  • 确保人们了解评级的含义,以便他们可以适当地使用它来指导购买决策

亚马逊提供了某种四舍五入的均值,每个评分选项的频率计数以及样本数量(即评分数量)。该信息大概足以使大多数人理解与该物品有关的一般情绪以及对该等级的信心(即,具有20个等级的4.5比具有2个等级的4.5更准确;具有10 5的物品星级和一个没有评论的1星级可能仍然是一个好项目)。

您甚至可以将卑鄙视为民主选择。许多选举是根据哪位候选人在两点制范围内获得最高均值来决定的。同样,如果您认为每个提交评论的人都有投票权,那么您可以将均值视为一种均等权衡每个人投票权的形式。

规模使用上的差异真的有问题吗?

在心理学文献中,有很多等级偏差(有关综述,请参见Saal等,1980),例如中央趋势偏差,宽大处理偏差,严格性偏差。同样,某些评估者将更加武断,而某些评估者将更加可靠。有些人甚至可能会系统地撒谎,给予假阳性或假阴性评论。尝试计算项目的真实平均评分时,这会产生各种形式的错误。

但是,如果您要随机抽取总体样本,则这种偏倚将被抵消,并且如果评估者的样本量足够大,您仍将获得真实的均值。

当然,您不会在Amazon上获得随机样本,并且存在这样的风险,即您为某项商品获得的特定评估者系统地偏向于宽大或严格等等。话虽如此,我认为亚马逊的用户希望用户提交的评分来自不完善的样本。我还认为,在合理的样本量下,在许多情况下,大多数回复偏差差异很可能会开始消失。

可能取得的成就超出平均水平

在提高评级的准确性方面,我不会挑战均值的一般概念,但是我认为还有其他方法可以估算项目的真实总体均值(即,将获得的均值是要求对项目进行评分的大型代表性样本)。

  • 重量评定者基于其可信度
  • 使用贝叶斯评分系统,该系统将平均评分估算为所有项目的平均评分与特定项目的平均值的加权总和,并随着评分数量的增加而增加特定项目的加权
  • 根据所有项目的总体评分趋势调整评估者的信息(例如,通常给出3分的某人的5分比通常给出4分的某人的分值更高)。

因此,如果评级的准确性是亚马逊的主要目标,我认为应该努力增加每件商品的评级数量,并采用上述某些策略。在创建“最佳”排名时,此类方法可能特别相关。但是,对于页面上的较低评分,很可能是样本均值更好地满足了简单性和透明性的目标。

参考文献

  • 萨尔,FE,唐尼,RG和拉黑,MA(1980)。对评级进行评级:评估评级数据的心理计量质量。《心理公告》,第88卷,第413页。

1
+1。我认为这超越/以一种很好的方式扩展了您先前的答案。我特别喜欢“为什么平均值对亚马逊有利”部分,它更清楚地列举了我在最后一句话中试图得到的内容。“量表的不同用法”也很有见地;如果您知道其中的一本好书,那么不胜感激。但我要注意的是,最后一节与第二节有些紧张。
gung-恢复莫妮卡

2
谢谢。我添加了对评级偏差文献的参考,并在末尾添加了一些内容以试图调和这两种观点。
Jeromy Anglim

2
+1 @JeromyAnglim-透彻的视角来阐明问题的各个方面。荣誉!
博士2012年

+1,好答案。虽然我确实发现一句话有些误导。当您说“但是,如果您要随机抽取总体样本,则这种偏倚将被抵消,并且如果评估者的样本量足够大,您仍然会得到真实的均值。” -我认为这并不适用于所有偏见,即使您对总体进行了随机抽样。
Michael Bishop

1
@MichaelBishop谢谢,我同意那里的语言有点草率。我猜这取决于“真实均值”的含义。我可以看到,如果您的人口中存在伪造者,这可能会使未经调整的人口平均值偏离假设的“真实均值”。我在想更多的是,适用于所有项目的个人的任何系统性偏见都将被抵消,以使基于结果均值的项目能够无偏等级排序。
Jeromy Anglim

15

从技术上讲,这些评分实际上不是李克特量表;它们只是顺序收视率。话虽如此,您的观点本质上是正确的。但是,我经常认为这个问题太多了。需要注意的一件事是,通常可以理解,许多序数项的平均值可以近似为间隔,因此,当有多个等级时,平均值将成为更合理的表示形式。我发现@JeromyAnglim给出的答案非常好(真的,这个问题和所有伴随的答案都值得一读)。有关更多理论上的处理,请参见此处。另一方面,我喜欢亚马逊,但我认为没有理由期望他们提供统计上的先进性,尤其是在基本站点设计方面-关键是消费者的可用性,而不是给统计教授留下深刻的印象。


2
亚马逊一直是互联网技术行业在线广告和网站使用实验设计方面的领导者之一。您可以确定他们的统计方法实际上相当复杂的。:-)你的观点很不错。再往前走一小步,您是否可以想象亚马逊是否在做“更复杂的事情”,是否有人使用简单的平均值对其进行了检查,发现有些商品的等级比其平均值“高”,而另一些商品的“更低”,则提高了。大惊小怪并离开亚马逊试图解释他们对产品的“隐藏偏见”?
红衣主教2012年

1
Netflix等其他服务通过仅提供“摘要”数据来避免此问题。:)
红衣主教

@cardinal,这很有趣,我对亚马逊一无所知。
gung-恢复莫妮卡

15

每个人对此都有很好的意见。我真的不认为我可以添加更多。但是,我将发布


7
我猜这部漫画突显出某些人对某项产品的质量缺乏判断力,而对许多此类人进行平均计算,得出的结果很差。一般而言,人群的智慧表明,在至少合理比例的人拥有某些知识的地方,平均表现会很好。通过可信度对评级进行加权也可能是解决问题的一种策略。
Jeromy Anglim

1
另一个选择是使用Netflix风格的建议,方法是将您的评分与其他用户的评分进行比较,然后平均选择与您相似的用户提供的评分。
rahul 2012年

1
@rahul很好。在我的回答中,我有时会假设评分在很大程度上是真实分数+错误,即使该错误具有结构性。但是,对于个人喜好是质量定义一部分的领域,这并不总是那么有意义。
Jeromy Anglim

我喜欢这一点,这就是为什么(作为消费者)我尝试阅读评论而不只是看星级的原因。但我认为具有讽刺意味的是,在这种情况下,中位数,众数和百分位数的更“复杂”的方法给出的结果均比平均值;-)
Darren Cook

3

以我的经验,等级量表数据的平均值通常与我们试图与等级量表相关联的真实指标的水平最紧密相关。我们发现了很多线性关系,因此,平均值是汇总数据的更好方法之一。话虽如此,正如杰罗米(Jeromy)所指出的那样,大多数分析评级量表的集中趋势的方法在大多数时候都会给出相似的结果(排名等)。

另外,我怀疑亚马逊可能不是只以一种方式关注科学有效性。最终,亚马逊的目标是让人们在Amazon.com上购物更多,而评论的实现方式可能不会因使用一个数字汇总而有所不同。好的产品将得到奖励,劣质的产品将受到惩罚,紧张的购买者将有机会更详细地审查利弊。


2

由于公司使用该系统,亚马逊的评级具有误导性。当向顾客提供返利和免费商品以换取5星级评论时,关于等级数字或等级数字的“统计”变得毫无意义。


1
您是否有任何有关此类事情发生频率的数据?
Michael Bishop

1

你说的对。取序数的平均值有点误导。我的主观3可能确实等同于您的4,因此无法对几个排名进行任何汇总。因此,将不同的个人分数相加可能是最大的问题。将3和4的平均值解释为3.5几乎不那么令人震惊。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.