Questions tagged «paired-data»

当实验或观察性研究设计故意将两个单位作为对偶进行采样以形成比较基础时,就会出现配对数据。对于有关配对数据或其分析的任何问题,请使用此标签。


2
Wilcoxon秩和检验与Wilcoxon符号秩检验之间的差异
我想知道使用配对观测值的Wilcoxon秩和检验与Wilcoxon符号秩检验之间的理论差异是什么。我知道Wilcoxon秩和检验允许在两个不同样本中进行不同数量的观察,而配对样本的Signed-Rank检验则不允许这样做,但是在我看来,它们似乎都对相同的事物进行了检验。有人可以使用Wilcoxon秩和检验,什么时候可以使用成对观测值进行Wilcoxon符号秩检验,有人可以给我更多背景知识或理论信息吗?

5
配对与非配对t检验
假设我有20只老鼠。我以某种方式配对了老鼠,所以我得到了10对。出于这个问题的目的,它可能是随机配对,或者可能是明智的配对,例如试图配对来自同一窝,同性别,体重相似的小鼠,或者可能是故意的愚蠢配对,例如尝试将体重不相等的老鼠配对。然后,我使用随机数将每对中的一只鼠标分配给对照组,另一只鼠标分配给待治疗组。我现在做实验,只治疗要治疗的小鼠,否则不理会刚才的安排。 当要分析结果时,可以使用未配对的t检验或配对的t检验。答案会以什么方式(如果有)不同?(我基本上对需要估计的任何统计参数的系统差异感兴趣。) 我之所以这样问,是因为我最近参与的一篇论文被生物学家批评为使用配对t检验而不是未配对t检验。当然,在实际实验中,这种情况并不像我所描述的那样极端,我认为配对是有充分理由的。但是生物学家不同意。 在我看来,在我绘制的情况下,即使配对不合适,也无法通过配对t检验而不是未配对检验来错误地提高统计显着性(降低p值)。但是,如果小鼠配对不当,可能会使统计意义恶化。这是正确的吗?

5
如何显示交叉(配对)实验的误差线
以下场景已成为调查者(I),审阅者/编辑者(R,与CRAN不相关)和我(M)这三者中的最常见问题解答,是情节创建者。我们可以假设(R)是典型的医学大老板评论者,他只知道每个图都必须有误差条,否则是错误的。当涉及到统计审查员时,问题就不那么重要了。 情境 在典型的药理交叉研究中,测试了两种药物A和B对葡萄糖水平的影响。每位患者均按随机顺序进行两次测试,并且假定没有残留。主要终点是葡萄糖(BA)之间的差异,我们假设配对t检验就足够了。 (I)想要显示两种情况下的绝对葡萄糖水平的图。他担心(R)对误差条的需求,并要求在条形图中出现标准误差。让我们不要在这里开始条形图战争。 (I):那不是真的。条形重叠,并且我们有p = 0.03?那不是我在高中学到的。 (M):我们在这里有一个配对的设计。要求的误差线完全不相关,计数的是配对差异的SE / CI,图中未显示。如果我可以选择,并且没有太多数据,那么我希望使用以下图表 新增1:这是几个响应中提到的平行坐标图 (M):这些线显示了配对,并且大多数线都向上,这是正确的印象,因为斜率才是最重要的(好吧,这是绝对的,尽管如此)。 (I):那张照片令人困惑。没有人理解它,并且没有错误条(R在潜伏)。 (M):我们还可以添加另一个图,以显示差异的相关置信区间。距零线的距离给人以效果大小的印象。 (I):没人做 (R):它浪费了珍贵的树木 (男):(作为一个好德国人):是的,在树上指点了。但是,当我们进行多种处理和多种对比时,我还是会使用它(并且永远不会将其发布)。 有什么建议吗?如果要创建绘图,R代码在下面。 # Graphics for Crossover experiments library(ggplot2) library(plyr) theme_set(theme_bw()+theme(panel.margin=grid::unit(0,"lines"))) n = 20 effect = 5 set.seed(4711) glu0 = rnorm(n,120,30) glu1 = glu0 + rnorm(n,effect,7) dt = data.frame(patient = rep(paste0("P",10:(9+n))), treatment = rep(c("A","B"), each=n),glucose …

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
比较两条生存曲线以获取配对数据
我想比较两种不同的方法来检测生存分析中的状态变化。跟踪一组对象的时间较长(很多年),并且使用了两种检查方法来检查状态是否发生了变化。一种方法用于每年两次检查每个受试者,第二种方法用于每年一次检查每个受试者。问题是,这两种方法在检测状态变化的能力方面是否存在系统差异。 我想到的测试是对数秩测试,以查看两种方法的Kaplan-Meier曲线是否不同。我想知道在执行对数秩检验时,生存曲线是否“成对”(即,两种方法用于同一受试者)是否存在问题。它是否违反了对数秩检验中的假设,或者仅仅是效率低下的检验,因为它没有考虑到两条曲线是相关的?是否有人建议进行替代分析,以说明观察结果中的依赖性? 也许这不是问题,也许我正在思考。 好吧,我不知道状态改变的真实时间,只有方法检测到状态改变的时间点才知道。我曾经想到的是将生存时间设置为上一次未检测到状态变化的检查与检测到状态变化的检查之间的时间间隔的中点。与每年使用两次的方法相比,这可以弥补每年仅检查一次对象的方法的缺点。然后根据这些数据构建生存曲线。


2
均值差异与均值差异
在研究两个独立样本均值时,我们被告知我们正在研究“两种均值的差异”。这意味着我们从人口1(平均y¯1y¯1\bar y_1),并从它减去人口2(平均)。所以,我们的“两种方式的区别”是( -)。y¯2y¯2\bar y_2y¯1y¯1\bar y_1y¯2y¯2\bar y_2 在研究配对样本均值时,我们被告知正在查看“均值差”。通过计算每对之间的差异,然后取所有这些差异的平均值来计算。d¯d¯\bar d 我的问题是:我们是否得到相同的( -)与它的,如果我们从两列数据计算出它们,并在第一时间认为这是两个独立的样本,而第二时间考虑它配对数据?我玩了两列数据,看起来值是一样的!在那种情况下,可以说只是出于非量化的原因使用了不同的名称吗? ˉ ý 2 ˉ dy¯1y¯1\bar y_1y¯2y¯2\bar y_2d¯d¯\bar d

1
在什么情况下,Wilcoxon的符号秩检验优于t检验或符号检验?
经过一些讨论(在下面),我现在对焦点问题有了更清晰的了解,因此这是一个修订后的问题,尽管某些评论现在似乎与原始问题无关。 似乎t检验针对对称分布迅速收敛,有符号秩检验假设对称,并且对于对称分布,均值/伪随机数/中位数之间没有差异。如果是这样,在什么情况下,当他/她同时拥有t检验和sign检验时,相对没有经验的统计学家会认为有序检验有用吗?如果我的一位(例如社会科学专业)学生正在尝试测试一种治疗方法是否比另一种治疗方法更好(通过某种相对容易解释的衡量标准,例如某种“平均”差异的概念),那么我将努力寻找一个有签名的地方,即使在我的大学中,虽然通常会进行等级考试,但忽略了符号测试。


1
使用openMx在相同和异卵双胞胎的SEM概念模型中选择路径权重
我正在审查R包OpenMx进行遗传流行病学分析,以了解如何指定和拟合SEM模型。我对此很陌生,所以请多多包涵。我正在遵循《OpenMx用户指南》第59页上的示例。他们在这里绘制以下概念模型: 在指定路径时,他们将潜在的“一个”节点对显示的bmi节点“ T1”和“ T2”的权重设置为0.6,因为: 感兴趣的主要路径是从每个潜在变量到相应观察变量的路径。还估算了这些值(因此将它们全部设置为空),获得的起始值为0.6,并带有适当的标签。 # path coefficients for twin 1 mxPath( from=c("A1","C1","E1"), to="bmi1", arrows=1, free=TRUE, values=0.6, label=c("a","c","e") ), # path coefficients for twin 2 mxPath( from=c("A2","C2","E2"), to="bmi2", arrows=1, free=TRUE, values=0.6, label=c("a","c","e") ), 的0.6的值来自的估计的协方差bmi1和bmi2(严格的单合子双胞胎)。我有两个问题: 当他们说路径的“开始”值为0.6时,是否像在估计GLM时那样设置具有初始值的数值积分例程? 为什么严格根据单卵双胞胎估算这个值?

5
用图形方式表示大量成对数据点的一种好方法是什么?
在我的领域中,绘制配对数据的常用方法是将一系列倾斜的细线段重叠起来,并用两组的中值和中值CI进行覆盖: 但是,由于数据点的数量变得非常大(在我的情况下,我的数量大约为10000对),这种图变得更加难以阅读: 降低alpha值会有所帮助,但这仍然不是很好。在寻找解决方案时,我遇到了本文,并决定尝试实现“平行线图”。同样,它对于少量数据点也非常有效: ññN 我想我可以分别显示两组的分布,例如使用箱形图或小提琴,并在顶部绘制一条带有误差线的线以显示两个中位数/ CI,但是我真的不喜欢这个想法,因为它无法传达数据的配对性质。 我也不太热衷于2D散点图的概念:我希望使用更紧凑的表示形式,理想情况下是将两组值沿同一轴绘制的表示形式。为了完整起见,以下是二维散点图的数据: 有谁知道一种更好的方法来表示具有很大样本量的配对数据?您能否将我链接到一些示例? 编辑 对不起,我显然在解释我要寻找的东西方面做得不够好。是的,二维散点图确实有效,并且可以通过多种方式进行改进以更好地传达点的密度-我可以根据核密度估计对点进行颜色编码,也可以制作二维直方图,我可以在点等上方绘制轮廓,等等。 但是,对于我要传达的信息,我认为这太过分了。我实际上并不关心显示点本身的2D密度-我需要做的就是以尽可能简单明了的方式显示“条”的值通常大于“点”的值。 ,并且不会丢失数据的基本配对性质。理想情况下,我想沿同一轴而不是正交轴绘制两组的配对值,因为这样可以更直观地进行比较。 也许没有比散点图更好的选择了,但是我想知道是否有其他可行的选择。

4
Fisher对配对数据的精确测试
假设有例肺癌患者和匹配的对照组(无肺癌)(根据年龄,性别等进行匹配)。为了找到吸烟对肺癌的影响之间的证据,我在列联表上使用了Fisher的精确检验。但是,这没有考虑到控制和案例是匹配的。 404040404040 所以我想知道是否有一种方法可以使用费舍尔的精确测试来考虑两组之间的匹配?

1
如何在R中拟合Bradley–Terry–Luce模型,而无需复杂的公式?
Bradley-Terry-Luce(BTL)模型指出,其中是对象被判定为“更好” 的概率,参数比对象,而和是参数。pĴ 我= 升Ô 克一世Ť− 1(δĴ-δ一世)pĴ一世=升ØG一世Ť-1个(δĴ-δ一世)p_{ji} = logit^{-1}(\delta_j - \delta_i)p我Ĵp一世Ĵp_{ij}ĴĴj一世一世iδ一世δ一世\delta_iδĴδĴ\delta_j 这似乎是glm函数的候选者,family =二项式。但是,公式将类似于“成功〜S1 + S2 + S3 + S4 + ...”,其中Sn是虚拟变量,如果对象n是比较中的第一个对象,则为1,如果为n,则为-1。第二个,否则为0。那么Sn的系数将是对应的。dÈ 升吨一个ñdË升Ť一个ñdelta_n 仅使用几个对象,这将相当容易管理,但可能导致公式很长,并且需要为每个对象创建一个虚拟变量。我只是想知道是否有更简单的方法。假设要比较的两个对象的名称或数量是变量(因数),对象1和对象2,如果判断对象1更好,则成功为1,如果对象2为更好,则成功为0。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.