我有多个独立的编码人员,他们试图确定时间序列中的事件-在这种情况下,观看面对面对话的视频并查找特定的非语言行为(例如,头点头),并对每个事件的时间和类别进行编码事件。可以将这些数据合理地视为具有高采样率(30帧/秒)的离散时间序列或连续时间序列,以较易处理的形式为准。
我想计算的互信度的一些措施,但我认为会有一些不确定性,当事件发生; 也就是说,例如,我希望一个编码器可以编码某个特定运动开始的时间比其他编码器认为的开始晚四分之一秒。这些是罕见的事件,如果有帮助的话;事件之间通常至少需要几秒钟(数百个视频帧)。
有没有一种评估评估者之间可靠性的好方法,可以同时考虑到这两种同意和不同意见:(1)评估者是否同意发生什么事件(如果有),以及(2)他们同意什么时候发生?第二点对我很重要,因为我有兴趣了解这些事件相对于对话中发生的其他事件的时机,例如人们所说的话。
我领域的标准做法似乎是将事情分成多个时间片,例如1/4秒左右,汇总每个编码器每个时间片报告的事件,然后计算科恩的kappa或类似的度量。但是切片持续时间的选择是临时的,我对事件时间的不确定性也不太了解。
到目前为止,我最好的想法是我可以计算某种可靠性曲线。像kappa一样,它是窗口大小的函数,在该窗口中,我认为两个事件在同一时间被编码。不过,我不太确定从那里去哪里。