统计和大数据 agreement-statistics

2

乔尔·斯波斯基（Joel Spolsky）的《蛇的狩猎》是否发布了有效的统计内容分析？

如果您最近一直在阅读社区公告，则可能会看到StackExchange网络首席执行官 Joel Spolsky 在StackExchange官方博客上的帖子“ The Snark的狩猎” 。他讨论了对SE注释样本进行的统计分析，以从外部用户的角度评估它们的“友好性”。这些评论是从StackOverflow中随机抽取的，内容分析员是亚马逊Mechanical Turk社区的成员，这是一个工作市场，该平台将公司与以低廉的费用执行简短任务的工人联系在一起。不久前，我是一名政治学研究生，我参加的课程之一是“ 统计内容分析”。该班级的最后一个项目，实际上是其全部目的，是对《纽约时报》的战争报道进行详细分析，以检验美国人对战争期间新闻报道的许多假设是否准确（破坏者：证据表明他们在不）。该项目非常庞大且非常有趣，但是到目前为止，最痛苦的部分是“培训和可靠性测试阶段”，该阶段发生在我们进行全面分析之前。它有两个目的（有关详细说明，请参阅链接论文的第9页，以及在内容分析统计资料中对编码器可靠性标准的引用）：确认所有编码人员（即内容阅读者）都接受了相同的定性定义培训。在Joel的分析中，这意味着每个人都将确切地知道该项目如何定义“友好”和“不友好”。确认所有编码器都可靠地解释了这些规则，即我们采样了样本，分析了子集，然后从统计学上证明了我们在定性评估中的成对相关性非常相似。可靠性测试很痛苦，因为我们必须做三到四次。直到-1-被锁定并且-2-显示出足够高的成对相关性，我们对于完整分析的结果还是值得怀疑的。无法证明它们有效或无效。最重要的是，我们必须在最终样本集之前进行可靠性的中试。我的问题是：乔尔（Joel）的统计分析缺乏试点可靠性测试，也没有建立“友好”的任何运营定义。最终数据是否足够可靠，足以说明其结果的统计有效性？从一个角度来看，请考虑一下有关互编码器可靠性和一致的操作定义的价值的入门知识。在同一资料的更深处，您可以阅读有关飞行员可靠性测试的信息（列表中的项目5）。根据Andy W.在他的回答中的建议，我正在尝试使用R中的此命令系列（在我计算新的统计信息时进行更新）来计算数据集上的各种可靠性统计信息（可在此处获得）。描述性统计数据在这里百分比一致性（容差= 0）：0.0143 百分比协议（公差为1）：11.8 克里彭多夫的阿尔法： 0.1529467 在另一个问题中，我也尝试针对此数据建立项目响应模型。

25 reliability agreement-statistics methodology

2

序数或间隔数据的评分者间可靠性

哪种评级人间可靠性方法最适合序数或区间数据？我相信“共同同意概率”或“ Kappa”是为名义数据设计的。虽然可以使用“ Pearson”和“ Spearman”，但它们主要用于两个评估者（尽管它们可以用于两个以上的评估者）。还有哪些其他措施适合序数或间隔数据，即两个以上的评分者？

25 reliability psychometrics agreement-statistics cohens-kappa

5

在给学生评分时，如何最好地应对慷慨程度不同的标记的影响？

大约600名学生在广泛的评估中获得了分数，可以认为它具有良好的信度/效度。评估得分为100分，这是计算机标记的多项选择题。这600名学生在第二次较小的评估中也得到了分数。在第二项评估中，他们被分为11个小组，分别由11个不同的评分者组成，并且就评分的“慷慨性”或不存在评分者而言，评分者之间存在很大的差异。第二项评估也得分为100分。没有将学生随机分配给同类群组，并且有充分的理由期望各个群组之间的技能水平有所不同。我的任务是确保第二项作业的同类标记之间的差异不会对每个学生产生实质性的优势/劣势。我的想法是在第二次评估中获得同类群组分数，以在第一个评估中与同类群组分数保持一致，同时保持同类群组中的个体差异。我们应该假设我有充分的理由相信，两项任务的执行情况将高度相关，但是标记的慷慨程度相差很大。这是最好的方法吗？如果没有，那是什么？如果回答者可以给出一些有关如何实施好的解决方案的实用技巧，例如R或SPSS或Excel，将不胜感激。

13 agreement-statistics

2

具有时间不确定性的时间序列中事件的评估者间可靠性

我有多个独立的编码人员，他们试图确定时间序列中的事件-在这种情况下，观看面对面对话的视频并查找特定的非语言行为（例如，头点头），并对每个事件的时间和类别进行编码事件。可以将这些数据合理地视为具有高采样率（30帧/秒）的离散时间序列或连续时间序列，以较易处理的形式为准。我想计算的互信度的一些措施，但我认为会有一些不确定性，当事件发生; 也就是说，例如，我希望一个编码器可以编码某个特定运动开始的时间比其他编码器认为的开始晚四分之一秒。这些是罕见的事件，如果有帮助的话；事件之间通常至少需要几秒钟（数百个视频帧）。有没有一种评估评估者之间可靠性的好方法，可以同时考虑到这两种同意和不同意见：（1）评估者是否同意发生什么事件（如果有），以及（2）他们同意什么时候发生？第二点对我很重要，因为我有兴趣了解这些事件相对于对话中发生的其他事件的时机，例如人们所说的话。我领域的标准做法似乎是将事情分成多个时间片，例如1/4秒左右，汇总每个编码器每个时间片报告的事件，然后计算科恩的kappa或类似的度量。但是切片持续时间的选择是临时的，我对事件时间的不确定性也不太了解。到目前为止，我最好的想法是我可以计算某种可靠性曲线。像kappa一样，它是窗口大小的函数，在该窗口中，我认为两个事件在同一时间被编码。不过，我不太确定从那里去哪里。

13 time-series reliability agreement-statistics

2

在对学生论文进行评分时，如何使用这些数据校准具有不同慷慨程度的标记？

12名老师在教600名学生。这些老师教的12个群组的规模从40至90名学生不等，我们预计这两个群组之间会有系统的差异，因为研究生被分配给特定群组的比例不成比例，并且以往的经验表明，研究生的平均得分大大高于本科生。老师对他们队列中的所有论文进行了评分，并给他们满分100分。每位教师还查看了其他三位教师随机选择的一篇论文，并在100分中给了满分。每位教师的三篇论文都被另一位老师标记。因此，已经用这种方式对36篇不同的论文进行了标记，我称之为校准数据。我还可以看到每个队列中有多少名研究生。我的问题是： A）如何使用此校准数据来调整原始标记，以使其更公平？特别是，我想尽可能地消除过于慷慨/多余的制造商的影响。 B）我的校准数据是否合适？在本课程中获得的校准数据的有限的36个数据点中，我别无选择，并且在本学期没有选择的余地。但是，如果这种情况再次发生，我也许能够收集更多的校准数据，或者收集不同类型的校准数据。这个问题与我问过的一个普遍问题有关：我如何在对学生论文进行评分时最好地应对慷慨程度不同的标记的影响？。但是，这是另一回事，我不确定阅读该问题作为当前背景的有用之处，因为主要问题是我没有校准数据。

9 teaching agreement-statistics

1

计算具有可变等级数的R中的等级间可靠性？

Wikipedia建议，查看评估者之间可靠性的一种方法是使用随机效应模型来计算类内相关性。类内相关的例子讨论了看 σ2ασ2α+σ2ϵσα2σα2+σϵ2\frac{\sigma_\alpha^2}{\sigma_\alpha^2+\sigma_\epsilon^2} 从模型 Yij=μ+αi+ϵijYij=μ+αi+ϵijY_{ij} = \mu + \alpha_i + \epsilon_{ij} “其中Y ij是第 i 组的第 j 个观测值，μ是未观察到的总体均值，αi是组i中所有值共享的未观察到的随机效应，而εij是未观察到的噪声项。” 这是一个有吸引力的模型，尤其是因为在我的数据中，没有任何评分者对所有事物进行了评分（尽管大多数人的评分为20+），并且事物的评分次数是可变的（通常为3-4）。问题＃0：在该示例中，“组i”（“组i”）是否是一组被评级的事物？问题＃1：如果我正在寻找评估者之间的可靠性，我是否不需要一个包含两个术语的随机效应模型，一个用于评估者，一个用于评估的事物？毕竟，两者都有可能发生变化。问题2：如何最好地用R表达此模型？这个问题似乎有一个不错的建议： lmer(measurement ~ 1 + (1 | subject) + (1 | site), mydata) 我看了几个问题，而lme的“ random”参数的语法对我来说是不透明的。我阅读了lme的帮助页面，但是没有示例，我对“随机”的描述是难以理解的。这个问题有点类似于一个长名单的问题，与此最接近的一次。但是，大多数都没有详细介绍R。

9 r reliability random-effects-model agreement-statistics

Questions tagged «agreement-statistics»