如何找到评级的置信区间？

32

埃文·米勒（Evan Miller）的“ 如何不按平均评分进行排序 ”建议使用置信区间的下限来获得被评分项目的合计“分数”。但是，它使用的是伯努利模型：评级是竖起大拇指或竖起大拇指。

什么是使用其指定的离散分数的评级模型合理的置信区间至恒星，假设一个项目的评分数量可能会少吗？ $1$ $k$

我想我可以看到如何调整Wilson和Agresti-Coull区间的中心

\tilde{p} = \frac{\sum_{i = 1}^{n} x_{i} + z_{α / 2}^{2} p_{0}}{n + z_{α / 2}^{2}}

$\tilde{p} = \frac{\sum_{i=1}^n{x_i} + z_{\alpha/2}^2\; p_0}{n + z_{\alpha/2}^2}$

其中或（可能更好）是所有项目的平均评分。但是，我不确定如何调整间隔的宽度。我（经修订）的最佳猜测是 $p_0 = \frac{k+1}{2}$

\tilde{p} \pm \frac{z_{α / 2}}{\tilde{n}} \sqrt{\frac{\sum_{i = 1}^{n} (x_{i} - \tilde{p})^{2} + z_{α / 2} (p_{0} - \tilde{p})^{2}}{\tilde{n}}}

$\tilde{p} \pm \frac{z_{\alpha/2}}{\tilde{n}} \sqrt{\frac{\sum_{i=1}^n{(x_i - \tilde{p})^2} + z_{\alpha/2}(p_0-\tilde{p})^2}{\tilde{n}}}$

与，但我不能仅仅挥舞它作为Agresti-Coull的类比来证明其合理性， $\tilde{n} = n + z_{\alpha/2}^2$

Estimate (\bar{X}) \pm \frac{z_{α / 2}}{\tilde{n}} \sqrt{Estimate (Var (X))}

$\text{Estimate}(\bar{X}) \pm \frac{z_{\alpha/2}}{\tilde{n}} \sqrt{\text{Estimate}(\text{Var}(X))}$

是否有适用的标准置信区间？（请注意，我没有订阅任何期刊，也不能轻松访问大学图书馆；请务必提供适当的参考文献，但请补充实际结果！）

confidence-interval estimation

— 彼得·泰勒
source

4

因为当前的答复（也许出于礼貌）绕过此问题，所以我想指出，此应用程序严重滥用了置信度限制。使用LCL对均值进行排名没有理论依据（出于种种原因，LCL实际上比均值本身差很多原因）。因此，这个问题是基于一个严重错误的方法提出的，这可能就是为什么它吸引了相对较少关注的原因。

— ub

2

这个特定问题的一个很好的功能是它包含了足够的上下文，我们可以忽略实际问题，而将注意力集中在看起来更重要的基础问题上。

— 卡尔

1

彼得，我很高兴根据您的喜好修改了标题。我最初的编辑不是为了自我服务，而是为了使标题反映问题的内容。您是您真正含义的最终仲裁者。

— ub

23

就像卡尔·布罗曼（Karl Broman）在回答中所说的那样，贝叶斯方法可能比使用置信区间好得多。

置信区间问题

为什么使用置信区间不能很好地起作用？一个原因是，如果您对某项的评价不高，则您的置信区间将非常宽，因此置信区间的下限将很小。因此，没有很多评级的项目将最终出现在列表的底部。

但是，凭直觉，您可能希望没有很多评分的商品接近平均商品，因此您希望将商品的预估评分朝所有商品的平均评分摆动（即，将预估评分推向先前的）。这正是贝叶斯方法的作用。

贝叶斯方法一：评级的正态分布

如卡尔的回答所示，将估算的等级移向优先级的一种方法是使用形式的估算值： $w*R + (1-w)*C$

$R$ 是各项额定值的平均值。
$C$ 是所有项目的均值（或您希望将评分缩小到的任何平均值）。
请注意，该公式只是和的加权组合。 $R$ $C$
$w = \frac{v}{v+m}$ 是分配给的权重，其中是啤酒的评论数，是某种恒定的“阈值”参数。 $R$ $v$ $m$
请注意，当很大时，即当我们对当前项目有很多评级时，则非常接近1，因此我们的估计评级非常接近，而对先前的却很少关注。但是，当很小时，非常接近0，因此估计的等级对先前的具有很大的权重。 $v$ $w$ $R$ $C$ $v$ $w$ $C$

实际上，可以给此估计值做贝叶斯解释，即当单个评级来自以该均值为中心的正态分布时，该项目的平均评级的后验估计。

但是，假设评级来自正态分布有两个问题：

正态分布是连续的，但等级是离散的。
项目的评级不一定遵循单峰高斯形状。例如，您的商品可能是两极分化的，因此人们倾向于给它很高的评价或给它非常低的评价。

贝叶斯方法二：评级的多项式分布

因此，让我们假设多项式分布，而不是假设评级的正态分布。也就是说，给定某些特定项目，随机用户给它1星的概率为，随机用户给它2星的概率为，依此类推。 $p_1$ $p_2$

当然，我们不知道这些概率是多少。随着我们对该商品获得越来越多的评分，我们可以猜测接近，其中是为其授予1星的用户数，是获得评分的用户总数物品，但是当我们第一次开始时，我们什么都没有。因此，我们将这些概率放在Dirichlet上。 $p_1$ $\frac{n_1}{n}$ $n_1$ $n$ $Dir(\alpha_1, \ldots, \alpha_k)$

这个狄里克雷特先验是什么？我们可以将每个参数视为某个虚拟人员给次数的“虚拟计数” 。例如，如果，，而所有其他都等于0，那么我们可以认为这是说两个虚拟人给了项目1星，一个虚拟人给了项目2星。因此，在获得任何实际用户之前，我们可以使用此虚拟发行版来估算商品的评分。 $\alpha_i$ $i$ $\alpha_1 = 2$ $\alpha_2 = 1$ $\alpha_i$

[选择参数的一种方法是将设置为等于星总票数的。（请注意，参数不一定是整数。）] $\alpha_i$ $\alpha_i$ $i$ $\alpha_i$

然后，一旦获得实际评分，只需将其计数添加到Dirichlet的虚拟计数中即可。每当您要估算商品的等级时，只需取该商品所有等级（虚拟等级和实际等级）的平均值即可。

— 菜丁
source

1

方法2与方法1完全相同，不是吗，但是有不同的理由？

— 彼得·泰勒

2

@Peter：哦，是的！直到您提到它时才意识到这一点=）。（如果您要做的只是取后验的平均值，则它们是相同的。我猜想如果要计算其他类型的分数（例如某种极性度量），则使用Dirichlet后验可能会有用。可能有点稀有。）

— raegtin

1

在方法1中，通常如何选择？

m

$m$

— 杰森C

15

这种情况迫切需要贝叶斯方法。有简单的方法，对评级的贝氏排名这里（要特别的意见，这是有趣的），并在这里，然后在这些进一步的评论在这里。正如这些链接的第一个评论中指出的那样：

最好的BeerAdvocate（BA）...使用贝叶斯估计：

加权等级（WR）=（v /（v + m））×R +（m /（v + m））×C

其中：
R =啤酒的评论平均值
v = 啤酒的评论数量
m =列出的最低评论要求（当前为10）
C =列表中的平均值（当前为2.5）

— 卡尔
source

2

Beer Advocate方法的一个缺点是它没有考虑可变性。但是，我更喜欢这种思路而不是较低的置信度上限。

— 卡尔