如何开始使用项目响应理论以及使用什么软件?


21

语境

我一直在阅读有关项目响应理论的文章,​​并且觉得很有趣。我相信我了解基本知识,但是我想知道如何应用与该领域相关的统计技术。以下是与我要在其上应用ITR的领域相似的两篇文章:

第二个是我实际上想在此时扩展的那个。

我已经下载了一个名为jMetrik的免费程序,它似乎运行良好。我认为就IRT而言,这可能太基本了,但我不确定。

我知道“最佳”方式可能涉及学习R;但是,我不知道我是否可以抽出时间来解决这一学习难题。请注意,我们有一些资金来购买软件,但是据我看来,似乎没有任何出色的IRT程序。

问题

  • 您对jMetrik的有效性有何看法?
  • 您如何建议我继续申请IRT?
  • 应用IRT的最佳方案是什么?
  • 你们中的任何人都定期使用IRT吗?如果是这样,怎么办?

1
您当前使用什么软件?
StasK 2011年

我一直在使用jMetrik。它看起来很新,并且已经做了很多我感兴趣的事情!
Behacad 2011年

2
它可以在脚本模式下工作吗?如果只有GUI,则很难复制结果。对于任何严肃的软件,脚本模式都是必须的。
StasK 2011年

Answers:


22

作为IRT的一个很好的入门者,我总是建议您阅读《项目响应理论的直观指南》

可以在www.rasch.org上找到可用软件的调查。

从我的经验中,我发现在大多数人对拟合一参数模型感兴趣的情况下,Raschtest(及相关的)Stata命令非常方便。对于更复杂的设计,可以依靠GLLAMM;有一个很好的工作示例,该示例基于De Boeck和Wilson的著作《解释性项目和响应模型》(Springer,2004年)。

特别是关于R,在过去的五年中有很多可用的软件包,例如参见相关的CRAN Task View。其中的大多数内容在《统计软件杂志》(2007年第20卷)的特刊中进行了讨论。如另一个回应所述,ltmeRm允许适合各种IRT模型。由于他们依赖不同的估算方法- 使用边际方法而使用条件方法-选择一个或另一个主要取决于您要拟合的模型(ltmeRmeRm 不适用于2或3参数模型)和您遵循的测量目标:人参的条件估计具有良好的心理测量特性,而边际方法则使您可以轻松地切换到混合效果模型,如以下两篇论文所述:

还有一些使用MCMC方法拟合Rasch模型的可能性,请参见例如MCMCpack软件包(或WinBUGS / JAGS,但请参见BUGS项目响应理论代码,JSS(2010)36)。

我没有使用SAS进行IRT建模的经验,所以我会让那些更精通SAS编程的人来做。

其他专用软件(主要用于教育评估)包括:RUMM,Conquest,Winsteps,BILOG / MULTILOG,Mplus(未引用维基百科上已有的列表)。没有一个可以免费使用,但是其中一些建议使用限时演示版。我发现jMetrik当我(一年前),尝试了很有限的,而且所有功能都已经可以在R.同样,ConstructMap可以被安全地更换lme4,如图示的讲义上面链接。我还应该提到mdltmvon Davier和coll。提出的混合Rasch模型的(多维离散潜性特征模型),该书应该与本书配套多元和混合物分布Rasch模型(Springer,2007年)。


太棒了!感谢您的全面答复!我敢肯定,这两个答案都将对我有很好的帮助,对于任何好奇地追求这一领域的人也将有帮助。我建议您再次看一下jMetrik,也许可以给我您的想法。它现在具有Rasch建模,ICC曲线,一些IRT曲线,IRT等效(1PT,2PT,3PT模型)等等。
Behacad 2011年

我将看一下更新的版本。但是,老实说,如果您打算进行除参数估计和可视化报告之外的任何其他严肃工作,@ Stask所说的内容值得记住。要了解我的意思,请看《心理测量理论入门及其在R中的应用》。(它不仅仅涵盖某些所谓的“现代”心理计量学。)
chl

@chi-当我在ltm中使用ltm在R中运行IRT分析时,与在Mplus中然后在Multilog中运行相同分析时相比,我得到了非常不同的结果(而Mplus和Multilog中的分析是相同的)。我试图与ltm的作者一起找出原因,但未收到任何回复。您是否对不同软件包的结果有类似的经历?
Tormod

ex5.5θp-β一世一世=1个ķp=1个ñβ一世-θp建模,估计方法(边际vs.条件似然),以及对于2+参数模型,阈值是否居中。
chl

@chi-对不起您的回复,我没有注意到您的评论。不知道这是否仍然有用,但是我得到的辨别参数(a)的差异在0.184-1.429之间。例如,Mplus给出a = 5.084,而ltm给出相同项目a = 3.655。总体而言,ltm给出的a小于mplus。(在multilog中运行相同的分析得出的a对应于Mplus的a)。b更相似。
Tormod

8

对于第一个问题,我没有关于jMetrick的任何信息。

在应用IRT(与任何其他统计程序一样)时,第一步是将其与尽可能多的不同种类的数据一起使用。有学习曲线,但我认为这是值得的。

IRT的重要特征之一是Rasch模型与IRT模型之间的区别。它们是由不同的人出于不同的目的开发的。话虽如此,IRT模型是Rasch模型的超集。

Rasch模型是一个参数模型-他们假设问卷中的所有项目都可以同样地预测潜在特征。

但是,IRT模型是两个参数模型,它们使问题在提供有关参与者能力的信息的能力方面有所不同。

此外,还有三个与IRT模型类似的参数模型,不同之处在于它们允许一个猜测参数来说明参与者偶然获得正确答案的能力(这更多地是在能力方面而不是在性格测试上)。

此外,还有一个多维IRT,它可以一次估算多个潜在能力。我对此了解不多,但是我打算了解更多这方面的知识。

二分法和多分法IRT方法之间也有区别。在能力测试中使用的二分IRT模型具有正确与错误的答案。多重IRT模型用于人格测验中,那里有多个答案,这些答案同样正确(在某种意义上,没有正确答案)。

我个人将R用于项目响应理论。我使用了两个主要软件包,eRm它们仅适合Rasch模型,并且ltm适合项目响应理论模型(两个和三个参数模型)。两者都具有相似的功能,并且都为二分IRT模型提供了更多例程。我不知道R是否是IRT的“最佳”,它不具备所有可用的IRT模型,但它肯定是最可扩展的,因为它可以相对容易地对这些模型进行编程。

在R中,我几乎只将IRT用于多模型模型。我通常从非参数IRT方法(在包中提供mokken)开始测试假设,然后再进行rasch模型,根据需要增加更多的复杂度以获得良好的拟合度。

对于多维IRT,有包“ mirt”,它提供了此功能。我没有用过,所以我不能发表评论。

如果您确实将这些软件包安装到R中,并调用了'vignette(“ packagename”)'函数,那么您应该获得一些有用的小插图(肯定是eRmmokken,可能是其他小插图),这些小插图可能对您有用(取决于您的级别)数学复杂度)。

最后,有许多关于rasch和irt模型的好书。经常使用针对心理学家的项目反应理论(尽管我不喜欢这种风格),并且在技术复杂性链的更深层次上,有两本极为全面和有用的教科书-《现代项目反应理论Rasch模型手册》:基础,最新发展与应用

我希望这有帮助。


谢谢!非常感谢。如果有人对该领域有所了解,我也想听听有关软件选择的更多信息。
Behacad 2011年

3

jMetrik比您想像的还要强大。它专为研究人员需要在一个统一框架中执行多个程序的操作工作而设计。当前,您可以估算Rasch模型,部分信用模型和等级评分模型的IRT参数。它还允许通过Stocking-Lord,Haebara和其他方法进行IRT规模链接。因为它包括一个集成的数据库,所以IRT估算的输出可用于比例尺链接,而无需重塑数据文件。而且,所有输出都可以存储在数据库中,以便与jMetrik中的其他方法或R之类的外部程序一起使用。

您也可以使用脚本而不是GUI来运行它。例如,下面的代码将(a)将数据导入数据库,(b)具有答案键的评分项目,(c)估计Rasch模型参数,以及(d)将数据导出为CSV文件。您可以将最终的输出文件用作R的输入以进行进一步分析,或者可以使用R直接连接到jMetrik数据库并处理结果。

#import data into database
import{
     delimiter(comma);
     header(included);
     options(display);
     description();
     file(C:/exam1-raw-data.txt);
     data(db = testdb1, table = EXAM1);
}

#conduct item scoring with the answer key
scoring{
     data(db = mydb, table = exam1);
     keys(4);
     key1(options=(A,B,C,D), scores=(1,0,0,0), variables=  (item1,item9,item12,item15,item19,item21,item22,item28,item29,item30,item34,item38,item42,item52,item55));
     key2(options=(A,B,C,D), scores=(0,1,0,0), variables=(item4,item6,item16,item18,item24,item26,item32,item33,item35,item43,item44,item47,item50,item54));
     key3(options=(A,B,C,D), scores=(0,0,1,0), variables=(item3,item5,item7,item11,item14,item20,item23,item25,item31,item40,item45,item48,item49,item53));
     key4(options=(A,B,C,D), scores=(0,0,0,1), variables=(item2,item8,item10,item13,item17,item27,item36,item37,item39,item41,item46,item51,item56));
}

#Run a Rasch models analysis.
#Item parameters saved as database table named exam1_rasch_output
#Residuals saved as a databse table named exam1_rasch_resid
#Person estimates saved to original data table. Person estimate in variable called "theta"
rasch{
     center(items);
     missing(ignore);
     person(rsave, pfit, psave);
     item(isave);
     adjust(0.3);
     itemout(EXAM1_RASCH_OUTPUT);
     residout(EXAM1_RASCH_RESID);
     variables(item1, item2, item3, item4, item5, item6, item7, item8, item9, item10, item11, item12, item13, item14, item15, item16, item17, item18, item19, item20, item21, item22, item23, item24, item25, item26, item27, item28, item29, item30, item31, item32, item33, item34, item35, item36, item37, item38, item39, item40, item41, item42, item43, item44, item45, item46, item47, item48, item49, item50, item51, item52, item53, item54, item55, item56);
     transform(scale = 1.0, precision = 4, intercept = 0.0);
     gupdate(maxiter = 150, converge = 0.005);
     data(db = testdb1, table = EXAM1);
}

#Export output table for use in another program like R
export{
     delimiter(comma);
     header(included);
     options();
     file(C:/EXAM1_RASCH_OUTPUT.txt);
     data(db = testdb1, table = EXAM1_RASCH_OUTPUT);
}

该软件仍处于开发初期。我目前正在添加探索性因素分析和更高级的项目响应模型。与许多其他IRT程序不同,jMetrik是开源的。所有测量程序都使用Psychometrics库,该库当前可在GitHub https://github.com/meyerjp3/psychometrics上获得。欢迎有兴趣的人参与。


0

您在这里有很多问题,但对许多研究人员来说却很重要!

我强烈建议您继续使用IRT,但前提是您的情况符合要求。例如,它非常适合您使用的测试类型,最重要的是,您必须拥有所需的样本量。对于二项式的多项选择数据,我建议使用3PL模型(“客观测量”的Rasch参数令人信服),通常最小样本量为500-1000。无需猜测的二分数据,例如对陈述有Y / N响应的心理调查,可以很好地与2PL配合使用。如果您有评级量表或部分信用数据,则有专门针对这些情况设计的多模型。

恕我直言,应用IRT的最佳程序是Xcalibre。它相对用户友好(简单的GUI以及某些出于某种原因而需要的命令行批处理类型),并产生高度可读的输出(带有大量表格和图形的MS Word报告)。由于相反的原因,我建议不要使用R。缺点当然是它不是免费的,但是您往往会得到他们所说的付款。完整的描述,示例输出和免费试用版可从www.assess.com获得


您想详细说明为何“客观测量” sensu Rasch(或更正确地说是特定客观比较的可能性)的论点“引人注目”吗?
Momo 2013年

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.