我正在尝试为StackExchange网站整理一个数据挖掘程序包,尤其是,我一直试图确定“最有趣”的问题。我想使用问题分数,但是要消除由于观看次数而引起的偏见,但是我不知道如何严格地解决这一问题。
在理想世界中,我可以通过计算来对问题进行排序,其中是总投票数,是观看次数。毕竟,它将衡量支持该问题的人数的百分比,减去支持该问题的人数的百分比。 vñ
不幸的是,投票方式要复杂得多。投票趋于“平稳”到一定水平,这会大大低估广受欢迎的问题。实际上,具有1个视图和1个投票的问题肯定会比其他任何具有10,000个视图但票数少于10,000的问题得分更高。
我目前正在使用作为经验公式,但我想精确一点。我如何用严谨的数学方法解决这个问题?
为了解决一些评论,我将尝试以更好的方式重述该问题:
假设我有一个问题,共票,次观看。我希望能够估计当视图达到时,最有可能通过总票数进行投票。n 0 v 1 n 1
这样,我可以简单地为选择一个标称值,然后根据期望的总数对所有问题进行排序。对1
我在SO数据转储上创建了两个查询,以更好地显示我正在谈论的效果:
结果:
结果:
结果,不确定更直是否更好:(蓝色为,红色为) v