Questions tagged «reliability»

如果在一致的条件下产生相似的结果,则该措施具有较高的可靠性。不要将可靠性与有效性混淆(请参见标签Wiki)。不要使用具有自己的标签inter-rater的inter-rater可靠性

1
计算科恩的Kappa方差(和标准误差)
Kappa()统计数据是由Cohen [1]在1960年引入的,用于测量两个评估者之间的一致性。然而,它的差异在相当长一段时间以来一直是矛盾的根源。κκ\kappa 我的问题是,对于大型样本,哪种方法是最佳计算方法?我倾向于相信由Fleiss [2]测试和验证的是正确的选择,但这似乎并不是唯一发表的似乎是正确的(并在相当近期的文献中使用)。 现在,我有两种具体方法来计算其渐近大样本方差: Fleiss,Cohen和Everitt发表的校正方法[2]。 增量法可以在Colgaton,2009 [4](第106页)的书中找到。 为了说明这种混淆,以下是Fleiss,Cohen和Everitt [2]的引文,重点是我的话: 在实现最终成功之前,许多人类的努力被反复失败所困扰。珠穆朗玛峰的缩放就是一个例子。西北通道的发现是第二次。推导正确的kappa标准误差是第三次。 因此,以下是发生的情况的小结: 1960年:科恩(Cohen)发表论文“名义尺度的一致性系数” [1],介绍了他的机会校正的两个评估者之间的一致性度量,称为。但是,他为方差计算发布了错误的公式。κκ\kappa 1968年:Everitt尝试更正它们,但他的公式也不正确。 1969年:Fleiss,Cohen和Everitt在论文“ Kappa和加权Kappa的大样本标准误差”中发表了正确的公式[2]。 1971年:Fleiss 用相同的名称发布了另一个统计信息(但有所不同),其方差公式不正确。κκ\kappa 1979年:Fleiss Nee和Landis出版了Fleiss的的更正公式。κκ\kappa 首先,请考虑以下符号。此表示法意味着将求和运算符应用于点所放置的维度中的所有元素: pi.=∑j=1kpij pi.=∑j=1kpij\ \ \ p_{i.} = \displaystyle\sum_{j=1}^{k} p_{ij} p.j=∑i=1kpij p.j=∑i=1kpij\ \ \ p_{.j} = \displaystyle\sum_{i=1}^{k} p_{ij} 现在,人们可以将Kappa计算为: κ^=po−pc1−pe κ^=po−pc1−pe\ \ \ \hat\kappa = \displaystyle\frac{p_o-p_c}{1-p_e} 在其中 po=∑i=1kpii po=∑i=1kpii\ \ …

3
我的数据遵循什么分布?
让我们说我有1000个组件,并且我一直在收集有关这些组件记录故障的次数以及每次它们记录故障的数据,我还跟踪团队修复该问题花费了多长时间。简而言之,我一直在记录这1000个组件中每个组件的修复时间(以秒为单位)。在该问题的末尾提供了数据。 我把所有的这些值,并使用在画了R A Cullen和Frey图descdist从fitdistrplus包。我的希望是了解维修时间是否遵循特定的分配时间。这是boot=500获取引导值的图: 我看到该图告诉我观察结果属于beta分布(或者可能不是,在这种情况下,它揭示了什么?)现在,考虑到我是系统架构师而不是统计学家,那么该图揭示了什么? ?(我正在寻找这些结果背后的实际现实直觉)。 编辑: QQplot使用qqPlot包中的功能car。我首先使用该fitdistr函数估算了形状和比例参数。 > fitdistr(Data$Duration, "weibull") shape scale 3.783365e-01 5.273310e+03 (6.657644e-03) (3.396456e+02) 然后,我这样做: qqPlot(LB$Duration, distribution="weibull", shape=3.783365e-01, scale=5.273310e+03) 编辑2: 使用对数正态QQplot更新。 这是我的数据: c(1528L, 285L, 87138L, 302L, 115L, 416L, 8940L, 19438L, 165820L, 540L, 1653L, 1527L, 974L, 12999L, 226L, 190L, 306L, 189L, 138542L, 3049L, 129067L, 21806L, 456L, 22745L, 198L, …

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

2
乔尔·斯波斯基(Joel Spolsky)的《蛇的狩猎》是否发布了有效的统计内容分析?
如果您最近一直在阅读社区公告,则可能会看到StackExchange网络首席执行官 Joel Spolsky 在StackExchange官方博客上的帖子“ The Snark的狩猎” 。他讨论了对SE注释样本进行的统计分析,以从外部用户的角度评估它们的“友好性”。这些评论是从StackOverflow中随机抽取的,内容分析员是亚马逊Mechanical Turk社区的成员,这是一个工作市场,该平台将公司与以低廉的费用执行简短任务的工人联系在一起。 不久前,我是一名政治学研究生,我参加的课程之一是“ 统计内容分析”。该班级的最后一个项目,实际上是其全部目的,是对《纽约时报》的战争报道进行详细分析,以检验美国人对战争期间新闻报道的许多假设是否准确(破坏者:证据表明他们在不)。该项目非常庞大且非常有趣,但是到目前为止,最痛苦的部分是“培训和可靠性测试阶段”,该阶段发生在我们进行全面分析之前。它有两个目的(有关详细说明,请参阅链接论文的第9页,以及在内容分析统计资料中对编码器可靠性标准的引用): 确认所有编码人员(即内容阅读者)都接受了相同的定性定义培训。在Joel的分析中,这意味着每个人都将确切地知道该项目如何定义“友好”和“不友好”。 确认所有编码器都可靠地解释了这些规则,即我们采样了样本,分析了子集,然后从统计学上证明了我们在定性评估中的成对相关性非常相似。 可靠性测试很痛苦,因为我们必须做三到四次。直到-1-被锁定并且-2-显示出足够高的成对相关性,我们对于完整分析的结果还是值得怀疑的。无法证明它们有效或无效。最重要的是,我们必须在最终样本集之前进行可靠性的中试。 我的问题是:乔尔(Joel)的统计分析缺乏试点可靠性测试,也没有建立“友好”的任何运营定义。最终数据是否足够可靠,足以说明其结果的统计有效性? 从一个角度来看,请考虑一下有关互编码器可靠性和一致的操作定义的价值的入门知识。在同一资料的更深处,您可以阅读有关飞行员可靠性测试的信息(列表中的项目5)。 根据Andy W.在他的回答中的建议,我正在尝试使用R中的此命令系列(在我计算新的统计信息时进行更新)来计算数据集上的各种可靠性统计信息(可在此处获得)。 描述性统计数据在这里 百分比一致性 (容差= 0):0.0143 百分比协议(公差为1):11.8 克里彭多夫的阿尔法: 0.1529467 在另一个问题中,我也尝试针对此数据建立项目响应模型。


2
评估问卷的可靠性:维度,有问题的项目以及是否使用alpha,lambda6或其他某种指数?
我正在分析参加实验的参与者给出的分数。我想估计问卷的可靠性,该问卷由6个项目组成,旨在估计参与者对产品的态度。 我计算了克朗巴赫(Cronbach)的alpha值,将所有项目视为一个比例(alpha约为0.6),并一次删除了一项(最大alpha约为0.72)。我知道,根据项目的数量和底层构造的维数,alpha可能会被低估和高估。因此,我还执行了PCA。该分析表明,有三个主要成分解释了大约80%的方差。所以,我所有的问题都是关于我现在该如何进行? 我是否需要在每个维度上执行alpha计算? 我是否已移除影响可靠性的物品? 此外,在网上搜索时,我发现还有另一种可靠性度量:guttman的lambda6。 此度量与alpha的主要区别是什么? lambda的高价值是什么?

2
ROC曲线下精度与面积的关系
我为诊断系统构建了ROC曲线。然后非参数地将曲线下的面积估计为AUC = 0.89。当我尝试在最佳阈值设置(最接近点(0,1)的点)上计算精度时,诊断系统的精度为0.8,小于AUC!当我在另一个阈值设置(与最佳阈值相差很远)下检查精度时,我得到的精度等于0.92。是否可以使诊断系统在最佳阈值设置下的准确度低于另一个阈值的准确度,并且也低于曲线下的面积?请参阅所附图片。


4
在公共卫生政策研究中哪些案例研究滥用了不可靠/混杂/无效的研究或模型?
我正在起草有关当前混淆数据的当前公共卫生问题的文献综述: 在公共卫生/流行病学教育中使用哪些常见的历史案例研究,而在公共卫生政策和立法中有意或错误地使用了无效或混杂的关系或推论? 1960年代的汽车死亡人数激增以及随后由政府主导的基于证据的研究,该研究确定了安全带并最终要求安全气囊是法律所必需的,这是HOW公共卫生政策应由统计学上有效的推论和模型所驱动的一个很好的例子。 我更多地在寻找相反类型的案例(科学性很差,匆忙制定政策)。但是,如果没有别的什么,我想学习更多类似于先前为成功实现公共卫生利益而进行的有力研究的案例的案例。 我想以这些为例来说明基于证据的统计公共卫生研究对制定政策的重要性。

1
插入符glmnet与cv.glmnet
在glmnet内部caret使用搜索最佳lambda和cv.glmnet执行相同任务的比较中似乎有很多困惑。 提出了许多问题,例如: 分类模型train.glmnet与cv.glmnet? 在插入符号中使用glmnet的正确方法是什么? 使用`caret`交叉验证`glmnet` 但是没有给出答案,这可能是由于问题的可重复性。在第一个问题之后,我给出了一个非常相似的示例,但确实存在相同的问题:为什么估计的lambda如此不同? library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = 0.001),standardize=FALSE) …

2
具有时间不确定性的时间序列中事件的评估者间可靠性
我有多个独立的编码人员,他们试图确定时间序列中的事件-在这种情况下,观看面对面对话的视频并查找特定的非语言行为(例如,头点头),并对每个事件的时间和类别进行编码事件。可以将这些数据合理地视为具有高采样率(30帧/秒)的离散时间序列或连续时间序列,以较易处理的形式为准。 我想计算的互信度的一些措施,但我认为会有一些不确定性,当事件发生; 也就是说,例如,我希望一个编码器可以编码某个特定运动开始的时间比其他编码器认为的开始晚四分之一秒。这些是罕见的事件,如果有帮助的话;事件之间通常至少需要几秒钟(数百个视频帧)。 有没有一种评估评估者之间可靠性的好方法,可以同时考虑到这两种同意和不同意见:(1)评估者是否同意发生什么事件(如果有),以及(2)他们同意什么时候发生?第二点对我很重要,因为我有兴趣了解这些事件相对于对话中发生的其他事件的时机,例如人们所说的话。 我领域的标准做法似乎是将事情分成多个时间片,例如1/4秒左右,汇总每个编码器每个时间片报告的事件,然后计算科恩的kappa或类似的度量。但是切片持续时间的选择是临时的,我对事件时间的不确定性也不太了解。 到目前为止,我最好的想法是我可以计算某种可靠性曲线。像kappa一样,它是窗口大小的函数,在该窗口中,我认为两个事件在同一时间被编码。不过,我不太确定从那里去哪里。

2
从问卷中找出无用的问题
我正在开发问卷。为了提高其可靠性和有效性,我想使用统计方法。 我想消除答案始终相同的问题。这意味着几乎所有参与者都对这些问题给出了相同的答案。 现在我的问题是: 这类无用的问题的答案总是相同的,与使用环境无关的技术术语是什么? 有什么方法可以识别此类问题?

2
如何结合因素分析,内部一致性和项目响应理论来减少项目数量?
我正在根据经验设计调查表,在此示例中,我将使用任意数字进行说明。就上下文而言,我正在开发一项心理调查表,旨在评估焦虑症患者中常见的思维模式。一个项目可能看起来像是“我需要反复检查烤箱,因为我不能确定烤箱已关闭 ”。 我有20个问题(5分李克特),可能由一个或两个因素组成(请注意,实际上我有将近200个问题,由10个量表组成,每个量表可能由两个因素组成)。我愿意删掉大约一半的项目,只针对两个因素之一提出10个问题。 我熟悉探索性因素分析(EFA),内部一致性(克朗巴赫(Cronbach's alpha))以及项目响应理论(IRT)中的项目特征曲线。我可以看到我将如何使用这些方法中的任何一个来确定哪些项目是任何单个范围内的“较差”。我很欣赏每种方法还可以回答不同的问题,尽管它们可能导致相似的结果,而且我不确定哪个“问题”最重要。 在开始之前,请确保我分别知道每种方法的用途。 使用EFA,我将确定因素的数量,并删除在其各自因素上负荷最小(假设为<.30)或在各个因素之间交叉负荷的项目。 使用内部一致性,我将删除“如果删除了项目,则alpha值更差”的项目。我可以在假设我的量表中有一个因子的情况下进行此操作,也可以在初始EFA之后执行该操作以识别因子的数量,然后对每个因子运行alpha。 使用IRT,我将删除(5 Likert)响应选项中未评估关注因素的项目。我会盯着项目特征曲线。我基本上是在寻找一个45度角的直线,该直线从李克特量表的选项1一直沿潜分数上升到5。我可以假设一个因素,也可以在初始 EFA之后执行该步骤以识别多个因素,然后为每个因素运行曲线。 我不确定要使用哪种方法才能最好地确定哪些项目是“最差的”。我从广义上使用最差的方法,以使该项目在可靠性或有效性方面都不利于测量,这两者对我来说都同样重要。大概我可以结合使用它们,但是我不确定如何使用。 如果要继续我现在所知道的并尽我所能,请执行以下操作: 进行全民教育,以确定许多因素。还要删除因其各自因素而导致加载不良的项目,因为我不希望加载不良的项目,无论它们在其他分析中的表现如何。 如果IFA中还有任何残留物,则也要进行IRT并从该分析中判断出还除去不良品。 只需报告Cronbach的Alpha,不要将其用作删除项目的手段。 任何一般准则将不胜感激! 这也是您可能会回答的特定问题的列表: 在基于因子负荷删除项目和基于Chronbach的alpha删除项目之间(在两种分析中使用相同的因子布局)之间的实际区别是什么? 我应该先做什么?假设我用一个因素进行EFA和IRT,并且都确定了应删除的不同项目,那么哪个分析应该优先? 尽管我将报告Chronbach的Alpha值,但我对进行所有这些分析并不感到困难。我觉得仅执行IRT会遗漏某些内容,对于EFA同样如此。

3
拟合曲线的可靠性?
我想估计拟合曲线的不确定性或可靠性。由于我不知道它的确切含义,因此我故意不指定要查找的精确数学量。 这里,ËËE(能量)是因变量(响应),VVV(体积)是自变量。我想找到某种材料的能量-体积曲线Ë(五)Ë(V)E(V)。因此,我使用量子化学计算机程序进行了一些计算,以获取某些样品体积(图中的绿色圆圈)的能量。 然后,我用Birch–Murnaghan函数拟合这些数据样本: 这取决于四个参数: ë 0,V 0,乙0,乙' 0。我还假定这是正确的拟合函数,因此所有误差仅来自样本的噪声。在下文中,拟合函数(ē)将被写成函数 V。E(E|V)=E0+9V0B016⎧⎩⎨[(V0V)23−1]3B′0+[(V0V)23−1]2[6−4(V0V)23]⎫⎭⎬,E(E|V)=E0+9V0B016{[(V0V)23−1]3B0′+[(V0V)23−1]2[6−4(V0V)23]}, \mathbb{E}(E|V) = E_0 + \frac{9V_0B_0}{16} \left\{ \left[\left(\frac{V_0}{V}\right)^\frac{2}{3}-1\right]^3B_0^\prime + \left[\left(\frac{V_0}{V}\right)^\frac{2}{3}-1\right]^2 \left[6-4\left(\frac{V_0}{V}\right)^\frac{2}{3}\right]\right\}\;, Ë0,V0,B0,B′0E0,V0,B0,B0′E_0, V_0, B_0, B_0'(E^)(E^)(\hat{E})VVV 在这里,您可以看到结果(使用最小二乘算法进行拟合)。y轴变量是和x轴变量是V。蓝线是拟合点,绿色圆圈是采样点。ËEEVVV 我现在需要(在体积的依赖性充其量)这个拟合曲线的可靠性一定程度È(V ),因为我需要它来计算像过渡压力或焓进一步的数量。Ë^(五)E^(V)\hat{E}(V) 我的直觉告诉我,拟合曲线在中间是最可靠的,所以我猜想不确定性(例如不确定性范围)应该在样本数据的末尾增加,就像这个草图所示: 但是,我正在寻找什么样的量度,如何计算呢? 准确地说,这里实际上只有一个错误源:由于计算限制,计算出的样本有噪声。因此,如果我要计算一组密集的数据样本,它们将形成颠簸的曲线。 我想要找到所需不确定度估计值的想法是,在学校学习时根据参数计算以下“误差”(不确定性的传播): 的Δë0,ΔV0,Δ乙0和Δ乙'0,由拟合软件给出。Δ è(五)= (∂Ë(五)∂Ë0Δ è0)2+ (∂Ë(五)∂V0Δ V0)2+ (∂Ë(五)∂乙0Δ 乙0)2+ (∂Ë(五)∂乙′0Δ 乙′0)2----------------------------------------------------------√ΔË(V)=(∂Ë(V)∂Ë0ΔË0)2+(∂Ë(V)∂V0ΔV0)2+(∂Ë(V)∂乙0Δ乙0)2+(∂Ë(V)∂乙0′Δ乙0′)2 \Delta E(V) = \sqrt{ \left(\frac{\partial E(V)}{\partial E_0} \Delta E_0\right)^2 + …

2
IQR检测异常值的准确性如何
我正在编写一个分析进程运行时间的脚本。我不确定它们的分布情况,但是我想知道某个进程是否运行“过长”。到目前为止,我一直在使用上次运行时间的3个标准差(n> 30),但有人告诉我,如果数据不正常(看起来好像不是),这将无法提供任何有用的信息。我发现另一个异常测试指出: 找到四分位数间距,即IQR = Q3-Q1,其中Q3是第三个四分位数,而Q1是第一个四分位数。然后找到这两个数字: a)Q1-1.5 * IQR b)Q3 + 1.5 * IQR 如果<a或> b,则该点是异常值 我的数据通常是2sec,3sec,2sec,5sec,300sec,4sec等。其中300sec显然是一个异常值。 哪种方法更好?IQR方法还是std偏差方法?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.