如何找到评级的置信区间?


32

埃文·米勒(Evan Miller)的“ 如何不按平均评分进行排序 ”建议使用置信区间的下限来获得被评分项目的合计“分数”。但是,它使用的是伯努利模型:评级是竖起大拇指或竖起大拇指。

什么是使用其指定的离散分数的评级模型合理的置信区间至恒星,假设一个项目的评分数量可能会少吗?1k

我想我可以看到如何调整Wilson和Agresti-Coull区间的中心

p~=i=1nxi+zα/22p0n+zα/22

其中或(可能更好)是所有项目的平均评分。但是,我不确定如何调整间隔的宽度。我(经修订)的最佳猜测是p0=k+12

p~±zα/2n~i=1n(xip~)2+zα/2(p0p~)2n~

与,但我不能仅仅挥舞它作为Agresti-Coull的类比来证明其合理性,n~=n+zα/22

Estimate(X¯)±zα/2n~Estimate(Var(X))

是否有适用的标准置信区间?(请注意,我没有订阅任何期刊,也不能轻松访问大学图书馆;请务必提供适当的参考文献,但请补充实际结果!)


4
因为当前的答复(也许出于礼貌)绕过此问题,所以我想指出,此应用程序严重滥用了置信度限制。使用LCL对均值进行排名没有理论依据(出于种种原因,LCL实际上比均值本身差很多原因)。因此,这个问题是基于一个严重错误的方法提出的,这可能就是为什么它吸引了相对较少关注的原因。
ub

2
这个特定问题的一个很好的功能是它包含了足够的上下文,我们可以忽略实际问题,而将注意力集中在看起来更重要的基础问题上。
卡尔

1
彼得,我很高兴根据您的喜好修改了标题。我最初的编辑不是为了自我服务,而是为了使标题反映问题的内容。您是您真正含义的最终仲裁者。
ub

Answers:


23

就像卡尔·布罗曼(Karl Broman)在回答中所说的那样,贝叶斯方法可能比使用置信区间好得多。

置信区间问题

为什么使用置信区间不能很好地起作用?一个原因是,如果您对某项的评价不高,则您的置信区间将非常宽,因此置信区间的下限将很小。因此,没有很多评级的项目将最终出现在列表的底部。

但是,凭直觉,您可能希望没有很多评分的商品接近平均商品,因此您希望将商品的预估评分朝所有商品的平均评分摆动(即,将预估评分推向先前的) 。这正是贝叶斯方法的作用。

贝叶斯方法一:评级的正态分布

如卡尔的回答所示,将估算的等级移向优先级的一种方法是使用形式的估算值:wR+(1w)C

  • R是各项额定值的平均值。
  • C是所有项目的均值(或您希望将评分缩小到的任何平均值)。
  • 请注意,该公式只是和的加权组合。RC
  • w=vv+m是分配给的权重,其中是啤酒的评论数,是某种恒定的“阈值”参数。Rvm
  • 请注意,当很大时,即当我们对当前项目有很多评级时,则非常接近1,因此我们的估计评级非常接近,而对先前的却很少关注。但是,当很小时,非常接近0,因此估计的等级对先前的具有很大的权重。vwRCvwC

实际上,可以给此估计值做贝叶斯解释,即当单个评级来自以该均值为中心的正态分布时,该项目的平均评级的后验估计。

但是,假设评级来自正态分布有两个问题:

  • 正态分布是连续的,但等级是离散的
  • 项目的评级不一定遵循单峰高斯形状。例如,您的商品可能是两极分化的,因此人们倾向于给它很高的评价或给它非常低的评价。

贝叶斯方法二:评级的多项式分布

因此,让我们假设多项式分布,而不是假设评级的正态分布。也就是说,给定某些特定项目,随机用户给它1星的概率为,随机用户给它2星的概率为,依此类推。p1p2

当然,我们不知道这些概率是多少。随着我们对该商品获得越来越多的评分,我们可以猜测接近,其中是为其授予1星的用户数,是获得评分的用户总数物品,但是当我们第一次开始时,我们什么都没有。因此,我们将这些概率放在Dirichlet上。p1n1nn1n Dir(α1,,αk)

这个狄里克雷特先验是什么?我们可以将每个参数视为某个虚拟人员给次数的“虚拟计数” 。例如,如果,,而所有其他都等于0,那么我们可以认为这是说两个虚拟人给了项目1星,一个虚拟人给了项目2星。因此,在获得任何实际用户之前,我们可以使用此虚拟发行版来估算商品的评分。αiiα1=2α2=1αi

[选择参数的一种方法是将设置为等于星总票数的。(请注意,参数不一定是整数。)]αiαiiαi

然后,一旦获得实际评分,只需将其计数添加到Dirichlet的虚拟计数中即可。每当您要估算商品的等级时,只需取该商品所有等级(虚拟等级和实际等级)的平均值即可。


1
方法2与方法1完全相同,不是吗,但是有不同的理由?
彼得·泰勒

2
@Peter:哦,是的!直到您提到它时才意识到这一点=)。(如果您要做的只是取后验的平均值,则它们是相同的。我猜想如果要计算其他类型的分数(例如某种极性度量),则使用Dirichlet后验可能会有用。可能有点稀有。)
raegtin

1
在方法1中,通常如何选择?m
杰森C

15

这种情况迫切需要贝叶斯方法。有简单的方法,对评级的贝氏排名这里(要特别的意见,这是有趣的),并在这里,然后在这些进一步的评论在这里。正如这些链接的第一个评论中指出的那样:

最好的BeerAdvocate(BA)...使用贝叶斯估计:

加权等级(WR)=(v /(v + m))×R +(m /(v + m))×C

其中:
R =啤酒的评论平均值
v = 啤酒的评论数量
m =列出的最低评论要求(当前为10)
C =列表中的平均值(当前为2.5)


2
Beer Advocate方法的一个缺点是它没有考虑可变性。但是,我更喜欢这种思路而不是较低的置信度上限。
卡尔
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.