Questions tagged «paired-comparisons»

5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

5
如何显示交叉(配对)实验的误差线
以下场景已成为调查者(I),审阅者/编辑者(R,与CRAN不相关)和我(M)这三者中的最常见问题解答,是情节创建者。我们可以假设(R)是典型的医学大老板评论者,他只知道每个图都必须有误差条,否则是错误的。当涉及到统计审查员时,问题就不那么重要了。 情境 在典型的药理交叉研究中,测试了两种药物A和B对葡萄糖水平的影响。每位患者均按随机顺序进行两次测试,并且假定没有残留。主要终点是葡萄糖(BA)之间的差异,我们假设配对t检验就足够了。 (I)想要显示两种情况下的绝对葡萄糖水平的图。他担心(R)对误差条的需求,并要求在条形图中出现标准误差。让我们不要在这里开始条形图战争。 (I):那不是真的。条形重叠,并且我们有p = 0.03?那不是我在高中学到的。 (M):我们在这里有一个配对的设计。要求的误差线完全不相关,计数的是配对差异的SE / CI,图中未显示。如果我可以选择,并且没有太多数据,那么我希望使用以下图表 新增1:这是几个响应中提到的平行坐标图 (M):这些线显示了配对,并且大多数线都向上,这是正确的印象,因为斜率才是最重要的(好吧,这是绝对的,尽管如此)。 (I):那张照片令人困惑。没有人理解它,并且没有错误条(R在潜伏)。 (M):我们还可以添加另一个图,以显示差异的相关置信区间。距零线的距离给人以效果大小的印象。 (I):没人做 (R):它浪费了珍贵的树木 (男):(作为一个好德国人):是的,在树上指点了。但是,当我们进行多种处理和多种对比时,我还是会使用它(并且永远不会将其发布)。 有什么建议吗?如果要创建绘图,R代码在下面。 # Graphics for Crossover experiments library(ggplot2) library(plyr) theme_set(theme_bw()+theme(panel.margin=grid::unit(0,"lines"))) n = 20 effect = 5 set.seed(4711) glu0 = rnorm(n,120,30) glu1 = glu0 + rnorm(n,effect,7) dt = data.frame(patient = rep(paste0("P",10:(9+n))), treatment = rep(c("A","B"), each=n),glucose …

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

3
我如何根据球员的获胜历史来预测躲避球队获胜的几率?
想象一下,世界上有80位躲避球运动员。他们每个人都以随机的顺序与其他79名球员一起玩了数千场躲避球游戏。这是一个没有球队的世界(例如,每场比赛每个球员都有被选拔的机会)。我知道每个球员的先前获胜率(例如,一个赢得了之前所有游戏的46%,另一个赢得了他之前所有游戏的56%)。可以说一场比赛即将来临,我知道每支球队都在比赛。我也知道他们以前的胜率。 根据团队的组成来计算每个团队获胜的概率的最佳方法是什么? 如果需要相对高级的计算(例如,逻辑回归),请告诉我一些细节。我对SPSS非常熟悉,但是我不需要提出后续问题。 此外,我将如何使用档案数据探索方法的准确性?我知道这并不明确,因为大多数玩家都徘徊在40-60%左右,但仍然如此。 具体来说,A队获胜的几率是多少? A-包含先前获胜率分别为52%,54%,56%,58%,60%的个人B-包含先前获胜率为48%,55%,56%,58%,60%的个人 (这只是出于说明目的的一个随机示例。两个非常好的团队。) 编辑:有没有一种方法可以从一个非常简单的算法开始,然后看它是如何工作的?也许我们可以简单地将每支球队的百分比相加,并预测拥有最高百分比的球队将获胜。当然,我们的分类将是不准确的,但是在成千上万的存档游戏中,我们可以看到我们能否预测胜于偶然。

2
均值差异与均值差异
在研究两个独立样本均值时,我们被告知我们正在研究“两种均值的差异”。这意味着我们从人口1(平均y¯1y¯1\bar y_1),并从它减去人口2(平均)。所以,我们的“两种方式的区别”是( -)。y¯2y¯2\bar y_2y¯1y¯1\bar y_1y¯2y¯2\bar y_2 在研究配对样本均值时,我们被告知正在查看“均值差”。通过计算每对之间的差异,然后取所有这些差异的平均值来计算。d¯d¯\bar d 我的问题是:我们是否得到相同的( -)与它的,如果我们从两列数据计算出它们,并在第一时间认为这是两个独立的样本,而第二时间考虑它配对数据?我玩了两列数据,看起来值是一样的!在那种情况下,可以说只是出于非量化的原因使用了不同的名称吗? ˉ ý 2 ˉ dy¯1y¯1\bar y_1y¯2y¯2\bar y_2d¯d¯\bar d
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.