StackExchange问题的“趣味性”功能
该问题是从Mathematics Stack Exchange 迁移而来的,因为可以通过交叉验证来回答。 迁移 8年前。 我正在尝试为StackExchange网站整理一个数据挖掘程序包,尤其是,我一直试图确定“最有趣”的问题。我想使用问题分数,但是要消除由于观看次数而引起的偏见,但是我不知道如何严格地解决这一问题。 在理想世界中,我可以通过计算来对问题进行排序,其中是总投票数,是观看次数。毕竟,它将衡量支持该问题的人数的百分比,减去支持该问题的人数的百分比。 vñvñvn\frac{v}{n}vvvñnn 不幸的是,投票方式要复杂得多。投票趋于“平稳”到一定水平,这会大大低估广受欢迎的问题。实际上,具有1个视图和1个投票的问题肯定会比其他任何具有10,000个视图但票数少于10,000的问题得分更高。 我目前正在使用作为经验公式,但我想精确一点。我如何用严谨的数学方法解决这个问题?v日志n +1vlogn+1\frac{v}{\log{n}+1} 为了解决一些评论,我将尝试以更好的方式重述该问题: 假设我有一个问题,共票,次观看。我希望能够估计当视图达到时,最有可能通过总票数进行投票。n 0 v 1 n 1v0v0v_0ñ0n0n_0v1个v1v_1ñ1个n1n_1 这样,我可以简单地为选择一个标称值,然后根据期望的总数对所有问题进行排序。对1ñ1个n1n_1v1个v1v_1 我在SO数据转储上创建了两个查询,以更好地显示我正在谈论的效果: 平均得分得分 结果: 平均观看次数得分(100次观看桶) 结果: 两个公式比较 结果,不确定更直是否更好:(蓝色为,红色为) vvñvn\frac{v}{n}v升Ò 克n +1vlogn+1\frac{v}{log{n}+1}