Questions tagged «intraclass-correlation»

类内相关系数(ICC)衡量组中相似或关联的定量值有多少。存在ICC的几种版本和替代公式。相关性用于评估数据集的聚类性,评估者之间的一致性以及其他设置。

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
类内相关性(ICC)是否可以进行交互?
假设我对每个站点的每个主题都有一些度量。就计算类内相关性(ICC)值而言,主题和地点这两个变量是令人关注的。通常,我会使用lmerR包中的函数lme4并运行 lmer(measurement ~ 1 + (1 | subject) + (1 | site), mydata) 可以从上述模型中随机效应的方差获得ICC值。 但是,我最近读了一篇论文,这真的使我感到困惑。使用上述示例,作者在nlme程序包中使用函数lme计算了论文中的三个ICC值:一个用于主题,一个用于站点,一个用于主题与站点的交互。该文件未提供更多细节。我从以下两个角度感到困惑: 如何用lme计算ICC值?我不知道如何在lme中指定这三个随机效果(主题,站点及其交互)。 考虑将ICC用于主题和网站之间的交互真的有意义吗?从建模或理论角度来看,您可以进行计算,但是从概念上讲,我很难解释这种相互作用。

1
表明对5个主题进行100次测量比对100个主题进行5次测量提供的信息少得多
在一次会议上,我无意中听到以下声明: 5个主题的100次测量所提供的信息比100个主题的5次测量要少得多。 显然这是对的,但是我想知道如何用数学方式证明这一点……我认为可以使用线性混合模型。但是,我对用于估算它们的数学知识不甚了解(我只lmer4为LMM和bmrsGLMM 运行:)您能给我展示一个真实的例子吗?与R中的某些代码相比,我更希望提供一些公式的答案。请随意假设一个简单的设置,例如具有正态分布的随机截距和斜率的线性混合模型。 PS不涉及LMM的基于数学的答案也是可以的。我之所以想到LMM,是因为它们在我看来是一种自然的工具,可以解释为什么来自更多学科的较少量度要比来自少数学科的更多量度更好,但是我很可能错了。

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
当在混合模型中将组视为随机与固定时,斜率估计存在很大差异
我了解,当我们相信某些模型参数在某些分组因子中随机变化时,我们会使用随机效应(或混合效应)模型。我希望拟合一个模型,该模型的响应已在分组因子上进行了归一化和居中(不完美,但非常接近),但是自变量x没有进行任何调整。这使我进行了以下测试(使用虚构数据),以确保如果确实存在,我会找到所需的效果。我运行了一个带有随机截距的混合效应模型(跨由定义的组f)和另一个以因子f作为固定效应预测因子的固定效应模型。我将R包lmer用于混合效果模型和基本函数lm()对于固定效果模型。以下是数据和结果。 请注意y,无论组如何,其变化都在0左右。并且该x变化与y组内的变化一致,但跨组的变化要大得多。y > data y x f 1 -0.5 2 1 2 0.0 3 1 3 0.5 4 1 4 -0.6 -4 2 5 0.0 -3 2 6 0.6 -2 2 7 -0.2 13 3 8 0.1 14 3 9 0.4 15 3 10 -0.5 -15 4 11 -0.1 -14 …

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
具有多个变量的类内相关系数(ICC)
假设我在同胞中测量了一些变量,这些变量嵌套在家庭中。数据结构如下所示: 家庭同胞价值 ------ ------- ----- 1 1 y_11 1 2 y_12 2 1 y_21 2 2 y_22 2 3 y_23 …… 我想知道同一家庭中对兄弟姐妹进行的测量之间的相关性。常用的方法是根据随机拦截模型计算ICC: res <- lme(yij ~ 1, random = ~ 1 | family, data=dat) getVarCov(res)[[1]] / (getVarCov(res)[[1]] + res$s^2) 这等效于: res <- gls(yij ~ 1, correlation = corCompSymm(form = ~ …

2
ICC作为同一组中两个随机抽取的单元之间的预期相关性
在多层次建模中,类内相关性通常是根据随机效应方差分析来计算的 yij=γ00+uj+eijyij=γ00+uj+eij y_{ij} = \gamma_{00} + u_j + e_{ij} 其中ujuju_j是2级残差,而eijeije_{ij}是1级残差。然后,我们得到的估计σ^2uσ^u2\hat{\sigma}_u^2和σ 2 Ë为的方差ü Ĵ和Ë 我Ĵ分别,并将其插入公式如下:σ^2eσ^e2\hat{\sigma}_e^2ujuju_jeijeije_{ij} ρ=σ^2uσ^2u+σ^2eρ=σ^u2σ^u2+σ^e2 ρ = \frac{\hat{\sigma}_u^2}{\hat{\sigma}_u^2 +\hat{\sigma}_e^2} Hox(2002)在第15页上写道 类内相关ρ也可以解释为同一组中两个随机绘制的单元之间的预期相关性 有一个问题在这里,询问了先进的问题(为什么它正好等于这个代替近似相等),并获得了先进的答案。 但是,我想问一个简单得多的问题。 问题:谈论同一组中两个随机绘制的单元之间的相关性甚至意味着什么? 我对类内关联适用于组而不适用于成对的数据这一事实有基本的了解。但是,如果我们只有来自同一组的两个随机抽取的单位,我仍然不知道如何计算相关性。例如,如果我查看Wikipedia页面上ICC的点图,则我们有多个组,每个组中有多个点。

2
比较相关系数
我有两组数据,其中78个和35个样本的值约为250.000。一些样本是一个家庭的成员,这可能会影响数据。我已经计算了成对相关性,它在0.7到0.95之间变化,但是我想知道家庭内部和家庭之间的相关系数是否存在显着差异?做这个的最好方式是什么?谢谢

1
随机斜率混合模型的类内相关系数
我为参与者()和项目()m_plot配备了以下lme4::lmer带有交叉随机效应的模型:lfdncontent Random effects: Groups Name Variance Std.Dev. Corr lfdn (Intercept) 172.173 13.121 role1 62.351 7.896 0.03 inference1 24.640 4.964 0.08 -0.30 inference2 52.366 7.236 -0.05 0.17 -0.83 inference3 21.295 4.615 -0.03 0.22 0.86 -0.77 content (Intercept) 23.872 4.886 role1 2.497 1.580 -1.00 inference1 18.929 4.351 0.52 -0.52 inference2 14.716 3.836 …

1
如何在ARIMA模型的观察值48中加入创新的离群值?
我正在处理数据集。使用一些模型识别技术后,我得出了一个ARIMA(0,2,1)模型。 我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值(IO)。 如何将这个离群值合并到模型中,以便将其用于预测?我不想使用ARIMAX模型,因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗? 以下是我的价值观: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.