Questions tagged «repeated-measures»

当在同一单元(例如,受试者)上收集多个测量值时,将出现重复测量数据。将此标签与[anova]标签一起用于RM-ANOVA。

2
两种分布的纵向比较
我有六个月间隔四次对2500人进行血液测试的测试结果。结果主要包括两种免疫反应指标:一种在存在某些结核病抗原的情况下进行,另一种在不存在的情况下进行。目前,每项测试都会根据抗原反应和无反应之间的差异来评估阳性或阴性(其想法是,如果您的免疫系统对TB抗原有反应,您可能会在某个时候暴露于细菌本身)。从本质上讲,该测试假设未暴露个体的零和结核病反应分布应基本相同,而患有结核病的人的结核病反应将来自不同的分布(较高值)。 警告:响应非常非常不正常,并且在自然地板和工具截断的天花板上都出现了值聚集。 但是,在这种纵向情况下,我们似乎很清楚地看到,由于抗原和无应答的波动(通常很小),我们会得到“假阳性”(我担心潜伏性结核没有实际的金标准)。尽管在某些情况下可能很难避免这种情况(您可能只有一次机会对某人进行测试),但在许多情况下,每年大约需要对人们进行结核病常规检测-在美国,这对于医护人员来说很常见,军队,无家可归者住在庇护所等。忽略先前的测试结果似乎很可耻,因为现有标准恰好是横截面的。 我认为我想做的是我粗略地将其视为纵向混合分析。就像横截面标准一样,我希望能够估计从同一分布中得出个体的TB和无应答的概率-但要使该估计值包含先前的测试结果以及来自样本的信息整体(例如,我是否可以使用个体内变异的样本范围分布来改善对特定个体零或TB分布的估计?)。当然,估计的概率将需要能够随时间变化,以考虑新感染的可能性。 我已经全神贯注地试图以不同寻常的方式思考这个问题,但是我觉得这种概念化与我将要提出的任何想法一样好。如果没有任何意义,请随时进行澄清。如果我对情况的理解似乎不对,请随时告诉我。非常感谢你的帮助。 针对Srikant: 这是使用两个连续(但非正常且被截断)的测试结果进行潜在分类(是否感染TB)的情况。现在,该分类使用截止值完成(简化形式为TB-nil> .35->正数)。测试结果显示为(零,TB,结果),基本原型*为: 可能的负数:(0.06,0.15,-)(0.24,0.23,-)(0.09,0.11,-)(0.16,0.15,-) 可能的正数:(0.05,3.75,+)(0.05,1.56,+)(0.06 ,5.02,+)( 0.08,4.43 ,+)摇摆器:(0.05,0.29,-)(0.09,0.68 ,+)(0.08,0.31,-)(0.07,0.28,-) Wobbler的第二项测试的阳性结果显然是一种畸变,但您将如何建模?我的思路之一是使用重复测量多级模型来估计每个时间点的结核病和无结核病之间的“真正差异”,但我真正想知道的是该人的无病应答和结核病应答它们来自相同的分布,或者它们的免疫系统是否识别TB抗原并激活,从而产生增强的反应。 至于除了感染以外还可能导致阳性测试的原因:我不确定。我怀疑结果通常只是个人差异,但肯定还有其他因素的可能性。我们确实在每个时间点都有调查表,但是我还没有研究太多。 *捏造但说明性的数据

1
估计随着时间的变化
我有一个数据集,其中包含来自约2500个个体的约7,500个血液测试。我试图找出血液测试的变异性是随着两次测试之间的时间而增加还是减少。例如-我抽取您的血液进行基线测试,然后立即抽取第二个样品。六个月后,我画了另一个样本。人们可能期望基线和立即重复测试之间的差异小于基线和六个月测试之间的差异。 下图上的每个点反映了两次测试之间的差异。X是两次测试之间的天数;Y是两个测试之间差异的大小。如您所见,测试并非沿X均匀分布-这项研究并非旨在解决这个问题。由于这些点的平均高度重叠,因此基于28天的窗口,我包括了95%(蓝色)和99%(红色)的分位数线。这些显然被更极端的因素所牵制,但您明白了。 替代文字http://a.imageshack.us/img175/6595/diffsbydays.png 在我看来,可变性相当稳定。如果有的话,在短时间内重复进行测试会更高-这是违反直觉的。我该如何系统地解决这个问题,并考虑每个时间点的n值变化(某些时期根本没有测试)?非常感谢您的想法。 仅供参考,这是测试与重新测试之间的天数分布: 替代文字http://a.imageshack.us/img697/6572/testsateachtimepoint.png

2
R的coxph()究竟如何处理重复的测量?
语境 我试图了解R的coxph()如何接受和处理主题(或患者/客户,如果您愿意的话)的重复条目。有些人称这种长格式,有些人称其为“重复措施”。 例如,请参见以下答案部分中包含ID列的数据集: 协变量随时间变化的最佳Cox模型 还要假设协变量始终随时间变化,并且恰好有一个检查变量(即事件),它是二进制的。 问题 1)在上述链接的答案中,如果在调用coxph()时未提供ID作为参数,结果是否应与将cluster(ID)作为coxph()的参数包含在内? 我试图搜索文档,但以下内容似乎并未明确说明(1):https : //stat.ethz.ch/pipermail/r-help//2013-July/357466.html 2)如果对(1)的回答为“否”,那么(数学上)为什么?似乎coxph()中的cluster()根据pg上的“ cluster”小节在主题之间寻求关联。20点 https://cran.r-project.org/web/packages/survival/survival.pdf 3)含糊的问题:重复测量的coxph()与R的脆弱包装回归方法相比如何? 附加物 以下是有关使用cluster(ID)的提示: 是否存在可重复测量的logrank测试版本? 和: https://stat.ethz.ch/pipermail/r-help//2013-July/357466.html GEE方法:将“ + cluster(subject)”添加到coxph的模型语句中混合模型方法:将“ +(1 | subject)”添加到coxme的模型语句中。 提前致谢!

4
R中的离散时间事件历史(生存)模型
我正在尝试在R中拟合离散时间模型,但不确定如何执行。 我读过您可以将因变量组织在不同的行中,每个时间观察行一个,并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲,我有三列:ID,Event(在每个时间范围内为1或0)和Time Elapsed(自观察开始以来)以及其他协变量。 如何编写适合模型的代码?哪个因变量?我想我可以将其Event用作因变量,并将其包括Time Elapsed在协变量中。但是,会发生什么ID呢?我需要吗? 谢谢。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
在R中的重复测量方差分析中指定Error()项
我在定义R中的双向重复测量方差分析的误差项时遇到问题。我的数据包括沿从树中提取的芯线的三个径向位​​置(内部,中间和外部)的木材密度估计。一共有20种树,每种树有6个个体,每个树有两个核心。 为了测试径向位置对木材密度的影响,我使用以下两种方差分析模型,其中的误差项解释了个体之间的差异: radpos.aov <- aov(WD ~ Species*Radialposition + Error(Individual), data=Radpos) 但是,我不确定我对错误术语的说明是否足够。我还应该考虑核心内的可变性吗?对我来说,这种可变性与径向位置是相同的,而径向位置是我感兴趣的主要因素。 尽管我花了一些时间阅读有关在“重复测量ANOVA”中指定错误项的信息,但是在实际指定错误项方面仍然存在问题。我将对此有所帮助。

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
如何正确对待每个主题的多个数据点
我目前正在与someoe争论如何正确处理每个对象的多次测量数据。在这种情况下,在短时间内针对每个受试者内的不同条件收集了每个受试者的数据。所有测量都完全收集相同的变量,只是多个变量。 现在的一种选择是仅按条件对数据进行分组,而不关心多个数据点来自一个主题。但是,每个主题的数据点可能并不完全独立。 另一种选择是,首先对每个受试者的每种状况进行所有测量的平均值,然后比较平均值。但是,这可能会影响重要性,因为在最终分析中未考虑到均值误差较小的问题。 您如何正确分析此类数据?SPSS是否以某种方式解决了这个问题?原则上,应该可以在计算平均值时计算误差容限,而不是在最终分析中考虑误差容限,但是我不认为SPSS会在背后进行某种计算。

3
多次表面接触后手指上的细菌积聚:非正常数据,重复测量,交叉参与者
介绍 我有一些参与者在两种情况下反复接触被大肠杆菌污染的表面(A =戴手套,B =不戴手套)。我想知道戴着和不戴着手套的指尖上的细菌数量之间以及接触数之间是否存在差异。这两个因素都是参与者。 实验方法: 参与者(n = 35)用同一根手指触摸每个方块一次,最多8个接触点(见图a)。 然后,我擦拭参与者的手指,并在每次接触后测量指尖上的细菌。然后,他们用一根新手指触摸不同数量的表面,以此类推,从1到8个触点(见图b)。 这是真实数据:真实数据 该数据是非正态的,因此请参见下面的细菌边际分布| NumberContacts。x =细菌。每个方面都是不同数量的联系人。 模型 根据使用gamma(link =“ log”)和NumberContacts的多项式的变形虫的建议,从lme4 :: glmer尝试: cfug<-glmer(CFU ~ Gloves + poly(NumberContacts,2) + (-1+NumberContacts|Participant), data=(K,CFU<4E5), family=Gamma(link="log") ) plot(cfug) 注意 Gamma(link =“ inverse”)不会说PIRLS减半未能减少偏差。 结果: cfug的拟合vs残差 qqp(resid(cfug)) 题: 是否正确定义了我的glmer模型,以纳入每个参与者的随机影响以及每个人都同时进行实验A和实验B的事实? 加成: 参与者之间似乎存在自相关。这可能是因为没有在同一天对它们进行测试,并且细菌瓶随着时间的推移而增长和下降。有关系吗? acf(CFU,lag = 35)显示一个参与者与另一个参与者之间的显着相关性。

4
进行统计测试以区分两种产品
我有一个来自客户调查的数据集,我想部署一个统计测试以查看产品1和产品2之间是否存在显着差异。 这是客户评论的数据集。 速度是从很差,很差,可以,很好到非常好。 customer product1 product2 1 very good very bad 2 good bad 3 okay bad 4 very good okay 5 bad very good 6 okay good 7 bad okay 8 very good very bad 9 good good 10 good very good 11 okay okay 12 very good good …

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
挑战性数据集的哪种模型?(数百个具有大量嵌套的时间序列)
我要分析的数据集非常复杂,我找不到适合的解决方案。 这是东西: 1.原始数据实质上是昆虫歌曲的录音。每首歌曲均由多个突发组成,而每个突发均由子单元组成。所有个人都记录了5分钟。个体之间的猝发数及其在录音中的位置以及每个猝发的子单元数可能会非常不同。 2.我有每个子单元的载波频率(基本频率),这就是我要分析的内容。 我的问题: 1.突发中的频率显然不是独立的(尽管它相当稳定,但是子单元n-1的频率会影响子单元n)。 2.突发在录音中也不是独立的。 3.随着频率随着时间的推移而下降,它们变得更加独立(个人厌倦了唱歌,因此歌曲的频率越来越低)。下降似乎是线性的。 4.嵌套=我在A和B两个位置有3个重复种群。所以我有A1,A2,A3和B1,B2,B3。 我想做的是: 1.表征两个地点之间的频率差异(进行统计测试) 2.刻画两个位置之间的频率下降特性(看看其中之一下降得更快) 怎么做: 那就是为什么我需要帮助:我不知道。看来,我的案例结合了通常看不到的问题。我已经读过关于混合模型,关于GAM,关于ARIMA,随机和固定效果的信息,但是我不能真正确定做到这一点的最佳方法。当我绘制它的频率(频率〜子单元编号n)时,两个位置之间的差异非常明显。我还必须考虑其他变量,例如温度(使频率更高)等。 我想到了: 将个体嵌套在其来源的副本中,然后将副本嵌套在位置(单个/副本/位置)中。 使用随机的“突发”效果,因此我考虑了每个突发中的可变性。 使用固定的“记录中的突发位置”效果来测量频率下降(希望它实际上是线性的)。 正确吗? 我可以在这种情况下使用一种特殊类型的模型吗?

2
如何在R中模拟重复测量的多元结果?
@whuber已经演示了如何在一个时间点上模拟多元结果(,和)。ÿ1个y1y_1ÿ2y2y_2ÿ3y3y_3 众所周知,纵向数据经常出现在医学研究中。我的问题是如何在R中模拟重复测量的多元结果?例如,对于两个不同的治疗组,我们在5个不同的时间点重复测量,和。ÿ1个y1y_1y2y2y_2y3y3y_3


2
了解重复测量方差分析假设以正确解释SPSS输出
我正在调查不同的奖励条件是否会影响任务绩效。我有一个小型研究的数据,该研究分为两组,每组n = 20。我收集了一项涉及在3种不同“奖励”条件下的性能的任务的数据。这项任务涉及在3种情况下的两次表现,但以随机顺序进行。我想看看在每个不同的“奖励”条件下,每个小组的任务绩效是否存在平均差异。 IV =组类型 DV = 3种条件下任务绩效的平均值 我从重复测量方差分析中获得了输出,并可以访问SPSS中的原始数据集,但是不确定如何进行。由于Pallant的文字有些局限,因此我无法找到这种解释的分步指南。我的特殊问题包括以下几个方面: 我应该单独检查每个变量的正常性还是在IV的每个级别的组合中检查其正常性?如果组合使用,如何检查? 我要先检查莫赫利测验吗?如果违反,那是什么意思?如果没有违反,那意味着什么? 什么时候可以查看多元测试表或受试者内部效应的测试?我不确定何时使用这两个(或两者兼而有之)? 看看成对比较总是可以吗?如果多变量或受试者内效应未显示显着性(即P <0.05),则这样做似乎是违反直觉的,但我再次不确定。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.