乔尔·斯波斯基（Joel Spolsky）的《蛇的狩猎》是否发布了有效的统计内容分析？

如果您最近一直在阅读社区公告，则可能会看到StackExchange网络首席执行官 Joel Spolsky 在StackExchange官方博客上的帖子“ The Snark的狩猎” 。他讨论了对SE注释样本进行的统计分析，以从外部用户的角度评估它们的“友好性”。这些评论是从StackOverflow中随机抽取的，内容分析员是亚马逊Mechanical Turk社区的成员，这是一个工作市场，该平台将公司与以低廉的费用执行简短任务的工人联系在一起。

不久前，我是一名政治学研究生，我参加的课程之一是“ 统计内容分析”。该班级的最后一个项目，实际上是其全部目的，是对《纽约时报》的战争报道进行详细分析，以检验美国人对战争期间新闻报道的许多假设是否准确（破坏者：证据表明他们在不）。该项目非常庞大且非常有趣，但是到目前为止，最痛苦的部分是“培训和可靠性测试阶段”，该阶段发生在我们进行全面分析之前。它有两个目的（有关详细说明，请参阅链接论文的第9页，以及在内容分析统计资料中对编码器可靠性标准的引用）：

确认所有编码人员（即内容阅读者）都接受了相同的定性定义培训。在Joel的分析中，这意味着每个人都将确切地知道该项目如何定义“友好”和“不友好”。
确认所有编码器都可靠地解释了这些规则，即我们采样了样本，分析了子集，然后从统计学上证明了我们在定性评估中的成对相关性非常相似。

可靠性测试很痛苦，因为我们必须做三到四次。直到-1-被锁定并且-2-显示出足够高的成对相关性，我们对于完整分析的结果还是值得怀疑的。无法证明它们有效或无效。最重要的是，我们必须在最终样本集之前进行可靠性的中试。

我的问题是：乔尔（Joel）的统计分析缺乏试点可靠性测试，也没有建立“友好”的任何运营定义。最终数据是否足够可靠，足以说明其结果的统计有效性？

从一个角度来看，请考虑一下有关互编码器可靠性和一致的操作定义的价值的入门知识。在同一资料的更深处，您可以阅读有关飞行员可靠性测试的信息（列表中的项目5）。

根据Andy W.在他的回答中的建议，我正在尝试使用R中的此命令系列（在我计算新的统计信息时进行更新）来计算数据集上的各种可靠性统计信息（可在此处获得）。

描述性统计数据在这里

百分比一致性（容差= 0）：0.0143

百分比协议（公差为1）：11.8

克里彭多夫的阿尔法： 0.1529467

在另一个问题中，我也尝试针对此数据建立项目响应模型。

reliability agreement-statistics methodology

— 克里斯托弗
source

在没有公开发布的数据编码这样一个可以去评估自己的编码器如果想的可靠性。

— 安迪W

关于：＃1-应该注意的是，这并不是评论是否友好的练习，而是评论是否对外部用户友好的练习。

— 雷切尔

@Rachel我认为那是不对的。如果他们要衡量局外人如何看待对SO的评论，那么他们需要的样本集要多于20个人。

— Christopher

在得出有关局外人如何看待评论的观点与得出关于评论本身的观点之间的区别。在第一种情况下，您需要更大的样本量，得出的结论是“外部人认为有2.3％的SO评论不友好。” 在第二个中，它是“ 2.3％的SO评论不友好”。他们的结论是不同的，我认为可能无法做出第二个结论，因为我们无法证明编码人员在没有可靠性测试的情况下会类似地评估注释。

— Christopher

@Christopher Friendliness非常主观。根据您询问的人，同一评论可以被视为友好和不友好。这就是为什么我认为从大量随机用户那里而不是与您拥有完全相同观点的人那里获取观点更为重要。

— 雷切尔2012年

Answers:

百分比一致性（容差= 0）：0.0143

百分比协议（公差为1）：11.8

克里彭多夫的阿尔法：0.1529467

这些协议措施表明实际上没有任何分类协议-每个编码人员都有自己的内部临界点，用于将评论判断为“友好”或“不友好”。

如果我们假设这三个类别是有序的，即：不友好<中性<友好，我们还可以将类内相关性计算为一致性的另一种度量。在1000条评论的随机样本中，ICC（2,1）为0.28，ICC（2，k）为0.88。这意味着，如果您只采用20个评估者之一，则结果将非常不可靠（.28），如果您采用平均20个评估者，则结果将是可靠的（.88）。如果采用三个随机评分器的不同组合，则平均可靠性在0.5到0.60之间，这仍被认为太低。

两个编码器之间的平均双变量相关值为0.34，这也很低。

如果将这些一致性度量标准视为编码人员的质量度量标准（实际上他们应该表现出良好的一致性），那么答案是：它们不是好的编码人员，应该接受更好的培训。如果这被视为“随机人之间的自发同意程度有多好”的量度，那么答案也是：不是很高。作为基准，身体吸引力等级的平均相关性约为0.47-.71 [1]

[1] Langlois，JH，Kalakanis，L.，Rubenstein，AJ，Larson，A.，Hallam，M.＆Smoot，M.（2000）。格言还是美的神话？荟萃分析和理论评论。心理通报，126，390–423。doi：10.1037 / 0033-2909.126.3.390

— Felix S
source

分数的可靠性经常用经典测试理论来解释。这里有一个真实的分数，X但是您在任何特定结果上观察到的不仅是真实的分数，而且还有一些误差（例如Observed = X + error）的真实分数。从理论上讲，通过对同一基础测试采取多种观察到的测量（对这些测试的误差分布进行一些假设），然后可以测量未观察到的真实分数。

请注意，在此框架中，您必须假设您观察到的多个度量正在度量相同的基础测试。因此，经常将测试项目的可靠性差作为证据，证明所观察到的措施并未测量相同的基础测试。尽管这只是该领域的惯例，但是可靠性差本身并不能（从任何统计意义上）证明这些项目没有测量相同的结构。因此可以说，即使采取了非常不可靠的测试，也可以通过采取许多观察到的措施来对真实分数进行可靠的度量。

值得一提的是，经典测试理论不一定是解释此类测试的唯一方法，许多学者认为，潜变量和项目响应理论的概念总是比经典测试理论更合适。

在经典测试理论中，类似的隐含假设是人们说可靠性过高。它并没有说明特定项目是否可以衡量某个基础测试的有效性，但是当可靠性过高时，研究人员将其视为测试之间的错误不是独立的证据。

我不太确定您为什么不去亲自计算可靠性就这么狂热。为什么不能这样做，然后根据这些额外信息来解释分析？

— 安迪·W
source

因此，首先让我指出，我不再是一名研究生，因为有充分的理由从事统计工作：这并不是我的专长。我可能记错了方法论。都一样，我认为您和我可能正在谈论可靠性的不同衡量标准，或者至少有研究建议在最终分析进行之前对编码器可靠性进行测量以确保有效性。我已经对问题进行了编辑，以包括我在网络上找到的一个来源，该来源引用了对该主题的大量研究。

— Christopher

这是一个不同的上下文（二分类测试项目的可靠性而不是某些连续结果），但是逻辑上是相同的。因此，为什么我没有提到任何特定的可靠性度量（有很多）。您的报价没有暗示任何有关的信息before the final analysis，因此我不确定该概念的来源。

— 安迪W

啊哈您是正确的，这不是一个必要条件。进一步阅读我发布的链接，看来该试点测试被认为是方法学上的最佳实践（在其中寻找试点测试）。

— Christopher

我更改了问题以适应新信息。感谢您为纠正我的错误提供的帮助。

— Christopher

还有一个问题。

— 克里斯托弗·