Questions tagged «reliability»

如果在一致的条件下产生相似的结果,则该措施具有较高的可靠性。不要将可靠性与有效性混淆(请参见标签Wiki)。不要使用具有自己的标签inter-rater的inter-rater可靠性

2
欧米茄与Alpha可靠性
我想知道是否有人可以解释Ω和alpha可靠性之间的主要区别是什么? 我了解欧米茄的可靠性基于下图所示的层次因子模型,而alpha使用平均项目间相关性。 我不了解的是,在什么情况下,欧米茄的可靠性系数会高于阿尔法系数,反之亦然? 我是否可以假设子因子和变量之间的相关性更高,则欧米伽系数也会更高(如上图所示)? 任何建议表示赞赏!

4
是否可以有效地减少已发布的李克特量表中的项目数?
[根据反馈进行的编辑-谢谢:-)] h!更多编辑!抱歉! 你好- 我正在进行一些相当粗略和现成的数据收集,并使用已发布的有关士气和其他此类问题的量表发送给医护人员的调查。 唯一的问题是,与调查中的所有其他内容相比,该比例尺相当长,我想通过将每个子比例尺切成一半并且仅使用一半的项目来减小其尺寸。我的直觉是,这很好,因为子量表是相互关联的,虽然对于出版标准的研究不是理想的选择,但对于组织内部的一些事实调查也可以。 我想知道是否有人对这样做的有效性,陷阱或其他事情有任何想法。特别感谢您提供参考,因为我的同事们需要说服力! 非常感谢Chris B 编辑- 是的,它是经过验证的具有已知心理特征的量表。 如果这是正确的放置方式,则它是一维的并且具有子刻度。 我将在子级别和总级别(而不是项目级别)进行工作。 30个项目,大约40-60个人。 干杯!

2
Spearman-Brown的预言公式如何受到不同困难的问题的影响?
Spearman-Brown预言公式的结果如何受到具有不同难度或容易或困难的评分者的测验问题的影响?一篇受人尊敬的文字说,SB受到了影响,但未提供详细信息。(请参见下面的引用。) Guion,R.M(2011)。人事决策的评估,度量和预测,第二版。477页 “可以通过使用Spearman-Brown方程合并评估者来提高可靠性。...如果单个评级的可靠性为.50,那么两个,四个或六个并行评级的可靠性将分别约为.67,.80 ,和.86”(休斯顿,雷蒙德和史维克,1991年,第409页)。我喜欢这种说法,因为这个词大致上可以理解,如果所有的假设都按预期进行,则统计估计值是“平均”的陈述。除此之外,操作词是平行的。例如,如果一个评分者系统地宽大,则对评分进行平均(或使用Spearman-Brown),则完全不符合该假设。如果一篇论文的评价是由两个评价者来进行的,一个评价者对另一个评价者比较宽大,那么问题就好比使用两个难度不等(非平行形式)的多项选择题。基于不同(不相等)测试形式的分数无法比较。混合宽松和困难的评估者也是如此;经典测试理论的Spearman-Brown方程错误地估计了合并评级的可靠性。如果每个法官对结构的定义有所不同,情况就更糟了。”

1
如何在ARIMA模型的观察值48中加入创新的离群值?
我正在处理数据集。使用一些模型识别技术后,我得出了一个ARIMA(0,2,1)模型。 我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值(IO)。 如何将这个离群值合并到模型中,以便将其用于预测?我不想使用ARIMAX模型,因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗? 以下是我的价值观: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 


1
如何衡量共识等级的可靠性(来自Kemeny-Snell书中的问题)
假设 kkk 每个专家都被要求对一组 nnn对象的顺序或偏好。让我们在排名中平分秋色。 John Kemeny和Laurie Snell在其1962年的著作“社会科学中的数学模型”中提出了解决下一个问题的建议: 项目 111。 制定衡量共识排名可靠性的方法,方法是kkk专家。例如,这可以基于通过改变单个专家的排名可以带来的最大可能的改变。(必须注意多重共识排名的可能性。)证明一些定理,关于给定值的最可靠和最不可靠的共识kkk。 本书给出了排名的注释和排名聚合的方法(即,从许多“个人”那里获得一个“集体”排名)。但是对于以上问题没有给出答案。 首先,我想到了肯德尔的WWW一致性系数,但看起来不合适。任何想法都欢迎!


1
标尺可靠性度量(Cronbach's alpha等)与组件/因子负载之间有什么关系?
假设我有一个数据集,其中包含一堆问卷项目的得分,理论上,这些项目的评分范围较小,例如心理学研究中。 我知道这里的常见方法是使用Cronbach's alpha或类似方法检查量表的可靠性,然后将量表中的项目汇总以形成量表分数并从那里继续进行分析。 但是,还有因素分析,可以将您所有项目的得分作为输入,并告诉您其中哪些构成一致的因素。通过查看负载和社区等,您可以了解这些因素的强大程度。对我来说,这听起来像是同一件事,只是更深入。 即使您所有的秤可靠性都不错,EFA也会根据哪些项目更适合哪个秤来纠正您,对吗?您可能会遇到交叉负荷,使用派生因子得分比简单的比例总和更有意义。 如果我想将这些量表用于以后的分析(如回归或ANOVA),只要能保持其可靠性,我是否应该汇总这些量表?或者是CFA之类的东西(测试量表是否保持良好的因素,这似乎在衡量与“可靠性”相同的东西)。 我已经分别学习了这两种方法,所以我真的不知道它们之间的关系,是否可以一起使用它们,或者哪种方法对哪种环境更有意义。在这种情况下,是否存在用于良好研究实践的决策树?就像是: 根据预测的规模项目运行CFA 如果CFA拟合良好,请计算因子得分并将其用于分析。 如果CFA显示不合适,请改用EFA并采用探索性方法(或其他方法)。 因子分析和可靠性测试是否确实是针对同一事物的单独方法,还是我在某个地方误解了?

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
计算具有可变等级数的R中的等级间可靠性?
Wikipedia建议,查看评估者之间可靠性的一种方法是使用随机效应模型来计算类内相关性。类内相关的例子讨论了看 σ2ασ2α+σ2ϵσα2σα2+σϵ2\frac{\sigma_\alpha^2}{\sigma_\alpha^2+\sigma_\epsilon^2} 从模型 Yij=μ+αi+ϵijYij=μ+αi+ϵijY_{ij} = \mu + \alpha_i + \epsilon_{ij} “其中Y ij是第 i 组的第 j 个观测值,μ是未观察到的总体均值,αi是组i中所有值共享的未观察到的随机效应,而εij是未观察到的噪声项。” 这是一个有吸引力的模型,尤其是因为在我的数据中,没有任何评分者对所有事物进行了评分(尽管大多数人的评分为20+),并且事物的评分次数是可变的(通常为3-4)。 问题#0:在该示例中,“组i”(“组i”)是否是一组被评级的事物? 问题#1:如果我正在寻找评估者之间的可靠性,我是否不需要一个包含两个术语的随机效应模型,一个用于评估者,一个用于评估的事物?毕竟,两者都有可能发生变化。 问题2:如何最好地用R表达此模型? 这个问题似乎有一个不错的建议: lmer(measurement ~ 1 + (1 | subject) + (1 | site), mydata) 我看了几个 问题,而lme的“ random”参数的语法对我来说是不透明的。我阅读了lme的帮助页面,但是没有示例,我对“随机”的描述是难以理解的。 这个问题有点类似于一个长 名单的问题,与此最接近的一次。但是,大多数都没有详细介绍R。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.