众所周知,Stack Exchange是具有不同主题的问答站点的集合。假设每个站点彼此独立,给定用户拥有的统计信息,与下一个家伙相比,如何计算他的“全面性”?我应该使用什么统计工具?
老实说,我不太了解如何数学上定义“全面性”,但是它必须具有以下特征:
- 在所有条件都相同的情况下,用户代表越多,他的能力就越全面
- 在所有条件平等的情况下,用户参与的站点越多,他的能力就越全面。
- 答案或问题不会影响全面性
众所周知,Stack Exchange是具有不同主题的问答站点的集合。假设每个站点彼此独立,给定用户拥有的统计信息,与下一个家伙相比,如何计算他的“全面性”?我应该使用什么统计工具?
老实说,我不太了解如何数学上定义“全面性”,但是它必须具有以下特征:
Answers:
您还需要考虑站点之间的相似性。谁在计算器上和参与人经验丰富的咨询更全面的比别人谁在SO和交叉验证,谁又将(我认为)更全面的比别人谁在SO和参与参与程序员。毫无疑问,有很多方法可以做到这一点,但是您可以检查重叠注册以了解它。
示例:假设有三个站点,我们要比较用户A,B,C的全面性。我们以向量形式在三个站点中写下用户的声誉:
用户A:[23,23,0]
用户B:[15、15、0]
用户C:[10、10、10]
我们认为A比B更全面(它们的声誉均分布在两个站点中,但是A的总体声誉更高)。此外,我们认为C比B更全面(它们的总声誉相同,但是C在更多站点上的分布均匀。)尚不确定A是否应被认为比C更全面,反之亦然。
令,x B,x C分别为上述信誉向量。
我们想要通过用户信誉向量的函数来衡量用户的“全面性” 。通过以上所述,我们希望函数f满足f (x A)> f (x B)和f (x C)> f (x B)。
任何是凹的,增加会做的伎俩。
凸函数的两个常见示例是“分数范数”
根据缩放后的香农熵来衡量,那么,我们可以说C是三个中最全面的,而A是第二个最全面的。
EDIT2:根据whuber的评论添加了一个示例。
这是一个非常非常有趣的问题(实际上,我有点喜欢对堆栈交换站点进行建模的想法)。
关于全面性问题,评估此问题的一种方法是通过特定用户倾向于回答的标签及其在站点之间的分布。示例可以使这一点更加清楚。
我是TeX,StackOverflow,CrossValidated和AskUbuntu的成员。现在,我的确只对这里和StackOverflow有所贡献,而对Stackoverflow上的R只是贡献。因此,为了定义良好的圆度,我将看一下:a)两个站点共有的标签数量(以定义各个站点之间的相似性),以及用户回答的问题在具有很少或没有公共标签的站点上的程度。
例如,如果某人在StackOverflow和烹饪上为Python标签做出了贡献,那么该人比在这里回答有关Overflow和stats问题的统计软件问题(例如)的人更全面。
我希望这会有所帮助。
已经有很多好的答案,那么为什么还要一个呢?这主要是提醒大家注意讨论的有趣的想法在这里的n个类别咖啡厅。尽管生态(和其他地方)的多样性大多只关注丰富度,但人们也应该关注不同物种之间的相似度/不相似度。
通过将物种(或类似SE站点之类的任何物种)表示为度量空间中的点,这导致将熵泛化为度量空间,例如,参见Tom Leinster,Emily Roff所著的度量空间的最大熵。通过将标记视为度量空间中的点,可以在SE站点内使用相同的想法。