我有一个具有以下格式的数据集。
有二元结局癌症/无癌症。数据集中的每位医生都看过每位患者,并对患者是否患有癌症做出独立判断。然后,医生会给出他们的诊断正确与否的5分置信度,并在方括号中显示置信度。
我尝试了各种方法来从该数据集中获得良好的预测。
对于我来说,在不考虑医生的置信度的情况下,对所有医生平均而言,效果很好。在上表中,这将为患者1和患者2做出正确的诊断,尽管它会错误地指出患者3有癌症,因为在2-1多数中,医生认为患者3有癌症。
我还尝试了一种方法,其中我们随机抽取两名医生,如果他们彼此不同意,则决定权投给哪个更有信心的医生。这种方法是经济的,因为我们不需要咨询很多医生,但是它也大大提高了错误率。
我尝试了一种相关的方法,在该方法中我们随机选择两名医生,如果他们彼此不同意,我们将随机选择另外两名医生。如果一项诊断至少要进行两次“投票”,那么我们会解决一些问题,以支持该诊断。如果没有,我们将继续抽样更多的医生。这种方法非常经济,不会犯太多错误。
我不禁感到自己正在错过一些更复杂的做事方式。例如,我想知道是否存在某种方法可以将数据集分为训练集和测试集,并找到某种最佳方式来组合诊断,然后查看这些权重在测试集上的表现。一种可能性是某种方法,可以让我减轻一直在试验集上犯错误的医生的体重,也可以减肥以高置信度做出的诊断(置信度确实与此数据集的准确性相关)。
我有许多与此一般说明相符的数据集,因此样本量各不相同,并且并非所有的数据集都与医生/患者有关。但是,在此特定数据集中,有40位医生,每位医生看了108位患者。
编辑:这是我阅读@ jeremy-miles的答案所得到的一些权重的链接。
未加权的结果在第一列中。实际上,在此数据集中,最大置信度值为4,而不是我之前错误地说的5。因此,按照@ jeremy-miles的方法,任何患者可获得的最高未加权评分将是7。这意味着从字面上看,每位医生都以4的置信度断言该患者患有癌症。任何患者均可获得的最低未加权分数是0,这意味着每位医生都以4的置信度断言该患者没有癌症。
Cronbach的Alpha加权。我在SPSS中发现Cronbach的总体Alpha为0.9807。我试图通过更手动的方式计算Cronbach的Alpha值来验证该值是否正确。我创建了所有40位医生的协方差矩阵,并将其粘贴在此处。然后根据我对Cronbach的Alpha公式的理解其中是项目数(这里是医生的“项目”),我通过对协方差矩阵中的所有对角元素求和来计算,并通过对以下元素中的所有元素求和来计算协方差矩阵。然后我得到了然后,我计算了每位医生从移出时将发生的40种不同的Cronbach Alpha结果。数据集。我将对克伦巴赫的Alpha值贡献为负的任何医生的权重加权为零。我为其余医生得出了与他们对克伦巴赫Alpha的积极贡献成正比的权重。
按项目相关性加权。我计算所有“项目总计”相关性,然后按相关性大小成比例权衡每个医生的体重。
通过回归系数加权。
我仍然不确定的一件事是如何说哪种方法比另一种“更好”地工作。以前,我一直在计算诸如Peirce技能得分之类的东西,它适用于具有二元预测和二元结果的实例。但是,现在我的预测范围是0到7,而不是0到1。我应该将所有加权分数> 3.50转换为1,将所有加权分数<3.50转换为0吗?
Cancer (4)
的无癌症预测No Cancer (4)
。我们不能说No Cancer (3)
和Cancer (2)
相同,但是可以说有一个连续体,并且该连续体的中间点是Cancer (1)
和No Cancer (1)
。
No Cancer (3)
是Cancer (2)
吗?那会简化您的问题。