Questions tagged «psychometrics»

心理计量学已经发展成为心理学的一个子领域,成为测量无法观察到的个人特征的科学。

2
如何结合因素分析,内部一致性和项目响应理论来减少项目数量?
我正在根据经验设计调查表,在此示例中,我将使用任意数字进行说明。就上下文而言,我正在开发一项心理调查表,旨在评估焦虑症患者中常见的思维模式。一个项目可能看起来像是“我需要反复检查烤箱,因为我不能确定烤箱已关闭 ”。 我有20个问题(5分李克特),可能由一个或两个因素组成(请注意,实际上我有将近200个问题,由10个量表组成,每个量表可能由两个因素组成)。我愿意删掉大约一半的项目,只针对两个因素之一提出10个问题。 我熟悉探索性因素分析(EFA),内部一致性(克朗巴赫(Cronbach's alpha))以及项目响应理论(IRT)中的项目特征曲线。我可以看到我将如何使用这些方法中的任何一个来确定哪些项目是任何单个范围内的“较差”。我很欣赏每种方法还可以回答不同的问题,尽管它们可能导致相似的结果,而且我不确定哪个“问题”最重要。 在开始之前,请确保我分别知道每种方法的用途。 使用EFA,我将确定因素的数量,并删除在其各自因素上负荷最小(假设为<.30)或在各个因素之间交叉负荷的项目。 使用内部一致性,我将删除“如果删除了项目,则alpha值更差”的项目。我可以在假设我的量表中有一个因子的情况下进行此操作,也可以在初始EFA之后执行该操作以识别因子的数量,然后对每个因子运行alpha。 使用IRT,我将删除(5 Likert)响应选项中未评估关注因素的项目。我会盯着项目特征曲线。我基本上是在寻找一个45度角的直线,该直线从李克特量表的选项1一直沿潜分数上升到5。我可以假设一个因素,也可以在初始 EFA之后执行该步骤以识别多个因素,然后为每个因素运行曲线。 我不确定要使用哪种方法才能最好地确定哪些项目是“最差的”。我从广义上使用最差的方法,以使该项目在可靠性或有效性方面都不利于测量,这两者对我来说都同样重要。大概我可以结合使用它们,但是我不确定如何使用。 如果要继续我现在所知道的并尽我所能,请执行以下操作: 进行全民教育,以确定许多因素。还要删除因其各自因素而导致加载不良的项目,因为我不希望加载不良的项目,无论它们在其他分析中的表现如何。 如果IFA中还有任何残留物,则也要进行IRT并从该分析中判断出还除去不良品。 只需报告Cronbach的Alpha,不要将其用作删除项目的手段。 任何一般准则将不胜感激! 这也是您可能会回答的特定问题的列表: 在基于因子负荷删除项目和基于Chronbach的alpha删除项目之间(在两种分析中使用相同的因子布局)之间的实际区别是什么? 我应该先做什么?假设我用一个因素进行EFA和IRT,并且都确定了应删除的不同项目,那么哪个分析应该优先? 尽管我将报告Chronbach的Alpha值,但我对进行所有这些分析并不感到困难。我觉得仅执行IRT会遗漏某些内容,对于EFA同样如此。

3
验证问卷
我正在为我的论文设计问卷。我正在验证问卷的过程中,已将Cronbach's alpha检验应用于初始样本组。对问卷的回答是李克特量表;任何人都可以建议任何进一步的测试来帮助测试其有效性。我不是统计学专家,所以我们将不胜感激。 我一直在做一些研究,似乎可以进行Rasch分析了,有没有人有免费的软件站点可以应用此测试和建议?

2
R新手的项目分析
我正在尝试评估20个多项选择测试。我想执行一个项目分析,例如在本示例中可以找到的。因此,对于每个问题,我都希望P值以及与总数的相关性以及所选选项的分布。 我对那里的各种统计软件包一无所知,但是我想使用R,因为我对编程很满意并且R是开源的。我设想的伪工作流程是: 在Excel中准备数据并导出为CSV 将数据加载到R中 加载符合我需要的软件包 执行该软件包的命令 导出并报告。 我对1和2充满信心,但对3却有疑问,可能是因为我没有统计词汇来比较我在CRAN上浏览的软件包。 ltm看起来它可能是正确的软件包,但我不知道。无论使用什么软件包,命令将是什么? 附带问题:在链接的示例中,您认为MC和MI代表什么?

3
存在时提取更多因素总是更好吗?
与主成分分析不同,因子分析模型的解决方案不一定是嵌套的。也就是说,当仅提取第一个因子与第一个两个因子相同时,第一个因子的负载(例如)不一定相同。 考虑到这一点,请考虑以下情况:您具有一组高度相关的清单变量,并且(根据其内容的理论知识)应由单个因素来驱动。想象一下,探索性因素分析(无论您喜欢哪种度量标准:并行分析,卵石图,本征值> 1等)都强烈暗示着存在因素:主要因素较大,次要因素较小。您有兴趣使用清单变量和因子解来估计(即,获取因子得分)参与者对第一个因子的值。 在这种情况下,最好是:222 拟合因子模型以仅提取因子,并获得因子得分(等),或1个1个1 拟合因子模型以提取两个因子,获得因子的因子得分,但是扔掉/忽略第二个因子的得分? 对于哪种更好的做法,为什么呢? 关于这个问题有研究吗?

2
欧米茄与Alpha可靠性
我想知道是否有人可以解释Ω和alpha可靠性之间的主要区别是什么? 我了解欧米茄的可靠性基于下图所示的层次因子模型,而alpha使用平均项目间相关性。 我不了解的是,在什么情况下,欧米茄的可靠性系数会高于阿尔法系数,反之亦然? 我是否可以假设子因子和变量之间的相关性更高,则欧米伽系数也会更高(如上图所示)? 任何建议表示赞赏!

4
是否可以有效地减少已发布的李克特量表中的项目数?
[根据反馈进行的编辑-谢谢:-)] h!更多编辑!抱歉! 你好- 我正在进行一些相当粗略和现成的数据收集,并使用已发布的有关士气和其他此类问题的量表发送给医护人员的调查。 唯一的问题是,与调查中的所有其他内容相比,该比例尺相当长,我想通过将每个子比例尺切成一半并且仅使用一半的项目来减小其尺寸。我的直觉是,这很好,因为子量表是相互关联的,虽然对于出版标准的研究不是理想的选择,但对于组织内部的一些事实调查也可以。 我想知道是否有人对这样做的有效性,陷阱或其他事情有任何想法。特别感谢您提供参考,因为我的同事们需要说服力! 非常感谢Chris B 编辑- 是的,它是经过验证的具有已知心理特征的量表。 如果这是正确的放置方式,则它是一维的并且具有子刻度。 我将在子级别和总级别(而不是项目级别)进行工作。 30个项目,大约40-60个人。 干杯!

6
将n点李克特量表数据视为来自二项式过程的n次试验是否合适?
我从来没有喜欢过人们通常如何分析李克特量表的数据,就像人们有合理的期望至少在量表的极端情况下违反了这些假设一样,误差是连续的和高斯的。您如何看待以下替代方案: 如果响应在n点尺度上取值为,则将该数据扩展到n个试验,其中k 个试验的值为1,n - k其试验的值为0。因此,我们将李克特量表的响应视为如果它是一系列二项式试验的秘密集合(实际上,从认知科学的角度来看,这实际上是此类决策场景中所涉及机制的吸引人模型)。使用扩展的数据,您现在可以使用混合效应模型,将响应者指定为随机效应(如果有多个问题,还可以将问题指定为随机效应),并使用二项式链接函数指定误差分布。ķkkñnnñnnķkkn − kn−kn-k 任何人都可以看到这种方法的任何假设违规或其他有害方面吗?

2
Spearman-Brown的预言公式如何受到不同困难的问题的影响?
Spearman-Brown预言公式的结果如何受到具有不同难度或容易或困难的评分者的测验问题的影响?一篇受人尊敬的文字说,SB受到了影响,但未提供详细信息。(请参见下面的引用。) Guion,R.M(2011)。人事决策的评估,度量和预测,第二版。477页 “可以通过使用Spearman-Brown方程合并评估者来提高可靠性。...如果单个评级的可靠性为.50,那么两个,四个或六个并行评级的可靠性将分别约为.67,.80 ,和.86”(休斯顿,雷蒙德和史维克,1991年,第409页)。我喜欢这种说法,因为这个词大致上可以理解,如果所有的假设都按预期进行,则统计估计值是“平均”的陈述。除此之外,操作词是平行的。例如,如果一个评分者系统地宽大,则对评分进行平均(或使用Spearman-Brown),则完全不符合该假设。如果一篇论文的评价是由两个评价者来进行的,一个评价者对另一个评价者比较宽大,那么问题就好比使用两个难度不等(非平行形式)的多项选择题。基于不同(不相等)测试形式的分数无法比较。混合宽松和困难的评估者也是如此;经典测试理论的Spearman-Brown方程错误地估计了合并评级的可靠性。如果每个法官对结构的定义有所不同,情况就更糟了。”

2
使用R对二分数据进行因子分析的推荐程序
我必须对由二分变量(0 =是,1 =否)组成的数据集进行因子分析,我不知道自己是否走对了。 使用tetrachoric()我创建一个相关矩阵,并在其上运行fa(data,factors=1)。结果与使用MixFactor时收到的结果非常接近,但事实并非如此。 可以吗?还是您建议其他程序? 为什么会fa()工作并factanal()产生错误?(Fehler in solve.default(cv) : System ist für den Rechner singulär: reziproke Konditionszahl = 4.22612e-18)


4
我应该如何处理这个二元预测问题?
我有一个具有以下格式的数据集。 有二元结局癌症/无癌症。数据集中的每位医生都看过每位患者,并对患者是否患有癌症做出独立判断。然后,医生会给出他们的诊断正确与否的5分置信度,并在方括号中显示置信度。 我尝试了各种方法来从该数据集中获得良好的预测。 对于我来说,在不考虑医生的置信度的情况下,对所有医生平均而言,效果很好。在上表中,这将为患者1和患者2做出正确的诊断,尽管它会错误地指出患者3有癌症,因为在2-1多数中,医生认为患者3有癌症。 我还尝试了一种方法,其中我们随机抽取两名医生,如果他们彼此不同意,则决定权投给哪个更有信心的医生。这种方法是经济的,因为我们不需要咨询很多医生,但是它也大大提高了错误率。 我尝试了一种相关的方法,在该方法中我们随机选择两名医生,如果他们彼此不同意,我们将随机选择另外两名医生。如果一项诊断至少要进行两次“投票”,那么我们会解决一些问题,以支持该诊断。如果没有,我们将继续抽样更多的医生。这种方法非常经济,不会犯太多错误。 我不禁感到自己正在错过一些更复杂的做事方式。例如,我想知道是否存在某种方法可以将数据集分为训练集和测试集,并找到某种最佳方式来组合诊断,然后查看这些权重在测试集上的表现。一种可能性是某种方法,可以让我减轻一直在试验集上犯错误的医生的体重,也可以减肥以高置信度做出的诊断(置信度确实与此数据集的准确性相关)。 我有许多与此一般说明相符的数据集,因此样本量各不相同,并且并非所有的数据集都与医生/患者有关。但是,在此特定数据集中,有40位医生,每位医生看了108位患者。 编辑:这是我阅读@ jeremy-miles的答案所得到的一些权重的链接。 未加权的结果在第一列中。实际上,在此数据集中,最大置信度值为4,而不是我之前错误地说的5。因此,按照@ jeremy-miles的方法,任何患者可获得的最高未加权评分将是7。这意味着从字面上看,每位医生都以4的置信度断言该患者患有癌症。任何患者均可获得的最低未加权分数是0,这意味着每位医生都以4的置信度断言该患者没有癌症。 Cronbach的Alpha加权。我在SPSS中发现Cronbach的总体Alpha为0.9807。我试图通过更手动的方式计算Cronbach的Alpha值来验证该值是否正确。我创建了所有40位医生的协方差矩阵,并将其粘贴在此处。然后根据我对Cronbach的Alpha公式的理解其中是项目数(这里是医生的“项目”),我通过对协方差矩阵中的所有对角元素求和来计算,并通过对以下元素中的所有元素求和来计算协方差矩阵。然后我得到了α = Kķ− 1( 1 - Σ σ2X一世σ2Ť)α=ķķ-1个(1个-∑σX一世2σŤ2)\alpha = \frac{K}{K-1}\left(1-\frac{\sum \sigma^2_{x_i}}{\sigma^2_T}\right)ķķKΣ σ2X一世∑σX一世2\sum \sigma^2_{x_i}σ2ŤσŤ2\sigma^2_Tα = 4040 − 1( 1 − 8.7915200.7112) =0.9807α=4040-1个(1个-8.7915200.7112)=0.9807\alpha = \frac{40}{40-1}\left(1-\frac{8.7915}{200.7112}\right)=0.9807然后,我计算了每位医生从移出时将发生的40种不同的Cronbach Alpha结果。数据集。我将对克伦巴赫的Alpha值贡献为负的任何医生的权重加权为零。我为其余医生得出了与他们对克伦巴赫Alpha的积极贡献成正比的权重。 按项目相关性加权。我计算所有“项目总计”相关性,然后按相关性大小成比例权衡每个医生的体重。 通过回归系数加权。 我仍然不确定的一件事是如何说哪种方法比另一种“更好”地工作。以前,我一直在计算诸如Peirce技能得分之类的东西,它适用于具有二元预测和二元结果的实例。但是,现在我的预测范围是0到7,而不是0到1。我应该将所有加权分数> 3.50转换为1,将所有加权分数<3.50转换为0吗?

1
标尺可靠性度量(Cronbach's alpha等)与组件/因子负载之间有什么关系?
假设我有一个数据集,其中包含一堆问卷项目的得分,理论上,这些项目的评分范围较小,例如心理学研究中。 我知道这里的常见方法是使用Cronbach's alpha或类似方法检查量表的可靠性,然后将量表中的项目汇总以形成量表分数并从那里继续进行分析。 但是,还有因素分析,可以将您所有项目的得分作为输入,并告诉您其中哪些构成一致的因素。通过查看负载和社区等,您可以了解这些因素的强大程度。对我来说,这听起来像是同一件事,只是更深入。 即使您所有的秤可靠性都不错,EFA也会根据哪些项目更适合哪个秤来纠正您,对吗?您可能会遇到交叉负荷,使用派生因子得分比简单的比例总和更有意义。 如果我想将这些量表用于以后的分析(如回归或ANOVA),只要能保持其可靠性,我是否应该汇总这些量表?或者是CFA之类的东西(测试量表是否保持良好的因素,这似乎在衡量与“可靠性”相同的东西)。 我已经分别学习了这两种方法,所以我真的不知道它们之间的关系,是否可以一起使用它们,或者哪种方法对哪种环境更有意义。在这种情况下,是否存在用于良好研究实践的决策树?就像是: 根据预测的规模项目运行CFA 如果CFA拟合良好,请计算因子得分并将其用于分析。 如果CFA显示不合适,请改用EFA并采用探索性方法(或其他方法)。 因子分析和可靠性测试是否确实是针对同一事物的单独方法,还是我在某个地方误解了?

1
EFA显然支持单一因素,措施在内部是一致的,但是CFA是否适合?
我正在探索一项10项自我报告测评的心理测量特性。我有两个独立样本中的大约400个案例。这些项目以4点李克特量表完成。全民教育显然支持单因素解决方案(例如,第一特征值超过6,所有其他本征值低于1),而克朗巴赫的alpha值很好(例如.90)。没有项目具有较低的项目-总相关性。 我最初想做一个CFA(EFA只是我发现CFA不好之后的后续工作),测试一个单因素模型。令我惊讶的是,该模型的适用性相对较差: CFI=.91 TLI=.88 RMSEA=.13 此外,每个项目的负载都非常好(.65+)。 奇怪的是SRMR=.05,这是可以接受的/很好。 修改索引建议我将各地的错误相关联。如果有明确的理由这样做(例如,某些项目的措词非常相似),我会这样做;但是,所有度量的措词都类似,并且将所有错误术语关联起来将是奇怪而痛苦的。 我从未见过这样的情况。这项措施在内部是一致的,显然是全民教育中的一个因素,但在CFA中显示不佳。在两个独立的样本(来自不同大陆)中,结果是一致的。我尝试了两因素CFA(将5个随机项目分组),拟合度相同,甚至略胜一筹。 这是我的问题: 考虑到EFA / Cronbach alpha /因子负荷,为什么CFI / TLI / RMSEA的拟合度如此差? 为什么SRMR好,而其他指数却不好?我知道他们会衡量不同的事物,但以我的经验,他们几乎总是会聚在一起。 我应该关联一些错误吗? 示例项目: 你有缺点的想法 您的想法很难忘记 你一直在想情况
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.