题:
我有关于考试题的二进制数据(正确/不正确)。一些人可能事先有问题的一部分和正确答案。我不知道是谁,多少或哪个。如果没有作弊,则假设我将对项目做出正确响应的概率建模为,其中代表问题难度,是个人的潜在能力。这是一个非常简单的项目响应模型,可以使用R中ltm的rasch()之类的函数进行估算。除了潜在变量的(其中索引个体)之外,我还可以访问单独的估算值\ hat {q} _j升ø 克我吨((p 我 = 1 | Ž ))= β 我 + ž β 我 Ž Ž Ĵ Ĵ q Ĵ 相同潜变量的变量,这些变量是从另一个不可能作弊的数据集中得出的。
目的是确定可能被欺骗的个人及其被欺骗的物品。您可能会采取哪些方法?除了原始数据之外,,和都可用,尽管前两个由于作弊会有所偏差。理想情况下,解决方案将采用概率聚类/分类的形式,尽管这不是必需的。实践思想和形式方法都受到高度欢迎。
到目前为止,我已经比较了分数较高或较低的成对个体的问题分数的相关性(其中为他们被骗的可能性的粗略指标)。例如,我用\ hat {q} _j-\ hat {z} _j对个体进行排序,然后绘制连续对个体的问题分数对的相关性。我也尝试绘制得分为个人,其平均相关性值比更大的的位数,作为n的函数。两种方法都没有明显的模式。
更新:
我最终结合了@SheldonCooper的想法和@whuber指向我的有用的Freakonomics论文。欢迎其他想法/评论/批评。
假设是人在问题i上的二进位分数。估计项目响应模型
观察分数的概率取决于项目的难易程度和人的能力,可以写成其中P_ {ij}(\ hat {\ beta_i},\ hat {q_j})= ilogit(\ hat {\ beta_i} + \ hat {q_j})是预测的概率正确的响应,而ilogit是逆logit。然后,根据项目和人员特征,人员j具有观测值x_j的联合概率为p_j = \ prod_i p_ {ij},类似地,项目i具有观测值的联合概率为 p 我Ĵ = P [R (X 我Ĵ = X 我Ĵ | ^ β 我,^ q Ĵ)= P 我Ĵ(^ β 我,^ q Ĵ)X 我Ĵ(1 - P 我Ĵ(^ β 我,^ q Ĵ))1 - XP我Ĵ( ^ β 我, ^ q Ĵ)=我升ö克我吨( ^ β 我 + ^ q Ĵ)我升ö克我吨ĴXĴpĴ= Π我p我Ĵ,我X我
我尝试的另一步骤是,将r%的可能性最小的人(即,具有排序后的p_j值的r%的最低的人),计算他们的观察分数x_j之间的平均距离(对于r较低的人,应该将其相关联,是可能的作弊者),并将其绘制为r = 0.001,0.002,...,1.000。当r = 0.001到r = 0.025时,平均距离增加,达到最大值,然后在r = 1时,平均距离缓慢减小到最小值。这并不是我所希望的。