如果您最近一直在阅读社区公告,则可能会看到StackExchange网络首席执行官 Joel Spolsky 在StackExchange官方博客上的帖子“ The Snark的狩猎” 。他讨论了对SE注释样本进行的统计分析,以从外部用户的角度评估它们的“友好性”。这些评论是从StackOverflow中随机抽取的,内容分析员是亚马逊Mechanical Turk社区的成员,这是一个工作市场,该平台将公司与以低廉的费用执行简短任务的工人联系在一起。
不久前,我是一名政治学研究生,我参加的课程之一是“ 统计内容分析”。该班级的最后一个项目,实际上是其全部目的,是对《纽约时报》的战争报道进行详细分析,以检验美国人对战争期间新闻报道的许多假设是否准确(破坏者:证据表明他们在不)。该项目非常庞大且非常有趣,但是到目前为止,最痛苦的部分是“培训和可靠性测试阶段”,该阶段发生在我们进行全面分析之前。它有两个目的(有关详细说明,请参阅链接论文的第9页,以及在内容分析统计资料中对编码器可靠性标准的引用):
确认所有编码人员(即内容阅读者)都接受了相同的定性定义培训。在Joel的分析中,这意味着每个人都将确切地知道该项目如何定义“友好”和“不友好”。
确认所有编码器都可靠地解释了这些规则,即我们采样了样本,分析了子集,然后从统计学上证明了我们在定性评估中的成对相关性非常相似。
可靠性测试很痛苦,因为我们必须做三到四次。直到-1-被锁定并且-2-显示出足够高的成对相关性,我们对于完整分析的结果还是值得怀疑的。无法证明它们有效或无效。最重要的是,我们必须在最终样本集之前进行可靠性的中试。
我的问题是:乔尔(Joel)的统计分析缺乏试点可靠性测试,也没有建立“友好”的任何运营定义。最终数据是否足够可靠,足以说明其结果的统计有效性?
从一个角度来看,请考虑一下有关互编码器可靠性和一致的操作定义的价值的入门知识。在同一资料的更深处,您可以阅读有关飞行员可靠性测试的信息(列表中的项目5)。
根据Andy W.在他的回答中的建议,我正在尝试使用R中的此命令系列(在我计算新的统计信息时进行更新)来计算数据集上的各种可靠性统计信息(可在此处获得)。
百分比一致性 (容差= 0):0.0143
百分比协议(公差为1):11.8