StackExchange问​​题的“趣味性”功能


20

我正在尝试为StackExchange网站整理一个数据挖掘程序包,尤其是,我一直试图确定“最有趣”的问题。我想使用问题分数,但是要消除由于观看次数而引起的偏见,但是我不知道如何严格地解决这一问题。

在理想世界中,我可以通过计算来对问题进行排序,其中是总投票数,是观看次数。毕竟,它将衡量支持该问题的人数的百分比,减去支持该问题的人数的百分比。 vñvnvn

不幸的是,投票方式要复杂得多。投票趋于“平稳”到一定水平,这会大大低估广受欢迎的问题。实际上,具有1个视图和1个投票的问题肯定会比其他任何具有10,000个视图但票数少于10,000的问题得分更高。

我目前正在使用作为经验公式,但我想精确一点。我如何用严谨的数学方法解决这个问题?vlogn+1

为了解决一些评论,我将尝试以更好的方式重述该问题:

假设我有一个问题,共票,次观看。我希望能够估计当视图达到时,最有可能通过总票数进行投票。n 0 v 1 n 1v0n0v1n1

这样,我可以简单地为选择一个标称值,然后根据期望的总数对所有问题进行排序。1n1v1


我在SO数据转储上创建了两个查询,以更好地显示我正在谈论的效果:

平均得分得分

结果:

得分观看次数

平均观看次数得分(100次观看桶)

结果:

按观看得分


两个公式比较

结果,不确定更直是否更好:(蓝色为,红色为) vvnvlogn+1

公式


这当然是一个有趣的问题,但我认为您最好在stats.SE上询问。

@Theo实际上,您可能是正确的。如果他们认为最好,我将标记这些mod进行迁移。

1
为什么视图不会增加趣味性?(但更糟的是,为什么他们会做出负面贡献?)更多有趣的事物往往会被更多地看待……这里的根本问题是有趣甚至意味着什么?这是否意味着普遍感兴趣的问题或更特定的更高级别的受众感兴趣的问题?要有人用“数学上的严谨性”来回答这个问题,就必须首先严谨地提出。

意见偏置的问题,因为一个问题可能,说,是通过一个很好的网站链接,并收到意见吨-如果你看最精彩的问题,他们都是高看问题; 有趣的是,我的意思是网站用户认为有价值的问题。无论如何,问题仍然存在:将观点和投票相结合以获得最佳质量预测指标的正确方法是什么?

2
数学人员问了好问题。这个问题的逻辑似乎是循环的:它似乎要求我们提供一个公式来衡量SE问题的“质量”,但它并未规定“质量”的含义,只是给出了诸如“用户所感知的价值”之类的非操作性同义词。该网站。” 你一劳永逸!
ub

Answers:


3

一个人可能将一个有趣的问题定义为,鉴于观点的数目,该问题已经获得了相对多的选票。为此,您可以创建一条基线曲线,以反映给定视图的预期票数。曲线吸引得比基线多得多的曲线被认为特别有趣。

要构建基线,您可能需要计算每100个视图区的中位数票数。此外,您可以计算中位数绝对偏差(MAD),作为对每个分箱标准偏差的可靠度量。然后,“兴趣度”可以计算为

interestingness(votes,views) = (votes-baselineVotes(views))/baselineMAD(views) 

1

这是我的理论。我认为有两种问题:大部分保留在SE中(通常具有较少的视图),以及由于外部链接是从其他地方链接而通常由外部人员查看的(通常具有更多视图)。

对于大多数仍保留在SE中的问题,投票是衡量有趣问题的好方法。这是投票的重点。

当问题链接到网站之外时,投票也就失去意义了。一些链接站点的SE成员可能很少,其他站点可能更多。这些问题的投票数方差可能很大(如得分与视图图所证明的那样,曲线的右侧出现了)。这些问题将有更多的观点,观点可能会更好地指示有趣的问题。或有一个更大的社区碰巧发现更多有趣的问题。在这种情况下有很多变数,我认为值得尝试找到更多信息来区分这些情况。SE是否公开推荐信息?


SE是否公开推荐信息?我想知道帖子的查看模式,而不仅是投票,评论等
。– d_a_c321 2011年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.